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Mintegy 50 éve, jórészt biológiai kutatások eredményeképpen merült fel az a gondolat, hogy a természetes, 
"biológiai" neurális hálózatok mintájára 15 létrehozhatók számító rendszerek. Az alapgondolat térnyerése 
azonban csak az utóbbi, mintegy 20-25 évben következett be. Egy "új" számítási paradigma, a neurális 
számítástechnika (neural computing) jelent meg, amely a természetes (biológiai) neurális rendszerek felépítése 
és működési mechanizmusa mintájára hoz létre számító rendszereket. Olyan rendszereket, melyek a 
természetből ellesett módon mintákból, példákból nyert tapasztalatok felhasználásával, tanulás útján alakítják ki 
feladatmegoldó képességüket. E "mesterséges" neurális rendszerek felépítésükben i15 hasonlóságot mutatnak a 
biológiai neurális rendszerekkel; sok, egymással nagymértékben összekötött elemi műveletvégző egységből 
állnak, melyek párhuzamos működésük révén bonyolult feladatok igen gyors megoldására 15 képesek lehetnek. 


A neurális számítástechnika mára önálló tudománnyá vált, amely szilárd elméleti alapokkal, egyre szélesebb 
alkalmazási körrel és egyre több alkalmazási tapasztalattal rendelkezik. 


Ez a könyv azzal a céllal született, hogy áttekintést adjon a neurális hálózatokkal kapcsolatos legfontosabb 
elméleti és gyakorlati eredményekről. A könyv figyelembe veszi az elmúlt néhány év során megszületett új 
eredményeket i1s, amelyek jelentősen megváltoztatták, új megvilágításba helyezték az egész "neurális 
számítástechnikát" és általában az adatokból való tanulást. A könyv ugyanakkor nem törekedhet teljességre, sőt 
még csak nem 15 fedi le a neurális számítástechnika minden fontos területét. A neurális hálózatokkal foglalkozó 
irodalom és az eddigi eredmények olyan széleskörűek, hogy a témakör jelenlegi szintjének teljes áttekintése 
messze meghaladná egy korlátozott terjedelemű könyv lehetőségeit. A könyv ezért nem , egyenszilárdságú". 
Egyes témák talán a fontosságuknál 15 bővebben szerepelnek, míg más területek a szükségesnél 15 kisebb 
terjedelemben jelennek meg, sőt sok részterülettel egyáltalán nem foglalkozunk. Az ismertetett témakörök 
kiválasztásába jelentősen közrejátszott a szerzői kollektíva szemlélete is, tehát a témakörök kiválasztása 
bizonyos szubjektív elemeket is tartalmaz. Azon elméleti eredmények és hálózatok bemutatására törekszünk, 
amelyek a méréstechnikai, szabályozástechnikai és jelfeldolgozási feladatokhoz jobban illeszkednek, és 
amelyekhez kapcsolódóan a könyv szerzőinek önálló eredményei 15 vannak. 


A könyv a neurális hálózatok biológiai vonatkozásait nem emeli ki. Ugyan megemlíti, hogy egyes hálózatok 
kialakulásában a biológiai, tehát a nem mesterséges, hanem a természetes neurális hálózatok jelentős szerepet 
játszottak, alapjában a hálózatok a könyvben, mint bizonyos operációk elvégzésére alkalmas rendszerek 
jelennek meg, amelyek eredetüktől függetlenül vizsgálhatók és alkalmazhatók. 


A könyv alapját egy előadássorozat és egy csaknem egy évtizede készült tankönyv [Hor98] képezi. Ennek 
ellenére alapvetően új könyvről van szó. Az előadássorozat a BME Villamosmérnöki és Informatikai Kar 
különböző évfolyamos hallgatói részére az elmúlt években rendszeresen elhangzott. Az itt nyert tapasztalatok 
alapján az előző változattól mind szemléletében, mint felépítésében különböző, egyes fejezeteket tekintve 
jelentősen eltérő könyv megírását tűztük ki célul. 


A nemzetközi irodalomban ma már található jónéhány olyan könyv, melyek jóval nagyobb terjedelemben 
foglalkoznak a neurális számítástechnikával. A teljes témakör bemutatására azonban ezek a könyvek sem 
vállalkoznak. Az utóbbi években szinte folyamatosan jelentek meg újabb és újabb könyvek, melyek 
megpróbálják követni a gyors fejlődést, a legújabb eredmények azonban csak folyóirat- és konferencia- 
publikációkban találhatók meg. A könyvek szemlélete, a témakörök feldolgozásának mélysége, vagy a 
feldolgozott témakörök szerteágazósága több-kevesebb mértékben különbözik jelen könyvétől. A neurális 
szakirodalom talán első és máig 15 egyik legjobb összefoglaló műve a John Hertz, Anders Krogh és Richard 
Palmer szerzői kollektíva könyve [Her91]. Az összefoglaló, viszonylag széles spektrumot átfogó könyvek 
között elsősorban Simon Haykin könyvét kell megemlíteni, melynek a második, jelentősen bővített és 
módosított kiadása 1999-ben jelent meg [Hay99]. E mellett fontos utalni a Mohamad Hassoun és a Chistopher 
Bishop által jegyzett, 1995-ben megjelent könyvekre. Hassoun könyve szemléletében rokon Haykin könyvével, 
bár a hangsúlyok máshol vannak. A teljes spektrumból valamivel kisebb területet mutat be, viszont sok esetben 
ezt részletesebben teszi. Teljesen más szemléletű Bishop könyve [B1s595], mely talán jobban bemutatja, hogy a 
neurális számítástechnika milyen sok ponton kapcsolódik a mérnöki problémamegoldás és a matematika más 
témaköreihez. A gyors fejlődést és az egyes szakterületek összekapcsolásának igényét jelzi a közelmúltban 
megjelent néhány újabb könyv 15, melyek a neuronhálókat az intelligens információfeldolgozás egyéb eszközei 
között helyezik el, bemutatva a közöttük lévő kapcsolatokat is Id. pl. [Bish06], [Has09]. 


Számos, a neuronhálókhoz szorosabban vagy lazábban kapcsolódó, fontos témakör a felsorolt könyvekben nem 
vagy csupán érintőlegesen jelenik meg. Ezen témakörök között kell megemlíteni a szupport vektor gépeket és 
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általában a kernel gépeket, valamint az ezen hálózatok elvi megalapozásához 15 hozzájáruló statisztikus 
tanuláselméletet [ Vap95], [Vap98]. E témakörökről az első áttekintő, mérnöki szemléletű összefoglaló művek 
angolul 1s csak 2000 után jelentek meg [Cr100], [Sch02], [5uy02], magyar nyelven pedig még semmilyen átfogó 
könyv nem született. A könyv ezért jelentős részben e témakörökkel 1s foglalkozik. 


A könyv 13 fejezetből áll. A Bevezetés a mesterséges neurális hálók legfontosabb jellemzőit, a neurális 
számítástechnika kialakulásának, a neurális hálózatok fejlődésének néhány fontosabb állomását veszi sorra. 


Az 1. fejezet a neurális hálózatokkal kapcsolatos alapfogalmakat, a hálózatok alapelemeinek, a processzáló 
elemeknek és az alapvető hálózatstruktúráknak a felépítését igyekszik bemutatni. Ugyancsak ez a fejezet ad 
áttekintést egyes, a későbbiek szempontjából fontos matematikai eredményekről: ez a fejezet foglalja össze a 
hálózatok approximációs képességeinek matematikai alapjait. Az elméleti eredményeket összefoglaló részek 
nem törekszenek matematikai precizitásra; bár néhány tételt megfogalmazunk, ezek bizonyítását sehol sem 
közöljük. Ennek legfőbb oka, hogy a könyv a témakör mérnöki szemléletű bemutatását tűzi ki célul. Ugyancsak 
ezt a megközelítést támasztja alá, hogy a matematikai bizonyítások jelentős része nem konstruktív, tehát a 
probléma jobb megértését általában nem segítik elő. Ugyanakkor a tételek megléte fontos, hiszen ezek 
biztosítják a témakör szilárd, egzakt hátterét. 


A 2. fejezet a gépi tanulással, mint a neuronhálók kialakításának egyik legfontosabb módjával foglalkozik. A 
fejezet bemutatja a gépi tanulás elvi alapjait, a legfontosabb elméleti eredményeket és azokat az általános 
tanulási eljárásokat, melyek a különböző neuronhálóknál alkalmazhatók. A fejezet a gépi tanuláshoz kapcsolódó 
általános eredményeket tekinti át, a konkrét tanulási eljárások bemutatására az egyes neuronhálók ismertetésénél 
kerül sor. 


A 3. fejezet az elemi neuron különböző kialakításaival és azok tanításával foglalkozik. Bemutatja azt 15, hogy az 
elemi neuronok milyen képességekkel és korlátokkal rendelkeznek. 


A 4. fejezet az egyik leggyakrabban alkalmazott neuronháló, a többrétegű perceptron (MLP) felépítését, 
működését és tanítását tárgyalja. Bemutatja az MLP képességét 1s: ez teszi lehetővé, hogy az MLP a feladatok 
igen széles körében sikerrel alkalmazható. 


Az 5. fejezet a bázisfüggvényes hálózatokkal, ezen belül í5 elsősorban a Radiális Bázisfüggvényes (RBF) 
hálózattal és a CMAC hálózattal foglalkozik. Részletesen elemzi e két hálótípus képességbeli korlátait, valamint 
azokat az előnyöket, amelyek a bázisfüggvényes felépítésből következnek. 


A 6. fejezet az elmúlt mintegy 10 évben kifejlesztett, és mind elméleti, mind gyakorlati szempontból kiemelten 
fontos területtel, a szupport vektor gépekkel foglalkozik. A szupport vektor gépek — miközben számos ponton 
kapcsolódnak a "klasszikus" neuronhálókhoz — új szemléletet hoztak a tanuló gépek témakörbe. Ennek a 
megközelítésnek az alapján olyan kérdésekre 15 válasz adható, amelyekre a klasszikus neurális megközelítés 
mellett nem kaphatunk választ. 


A 7. fejezet az előrecsatolt, statikus hálók néhány alkalmazási területét mutatja be, konkrét példákat 15 megadva. 


A 8. fejezet a dinamikus hálókkal kapcsolatos eredményeket foglalja össze. A fejezetek végén néhány fontos 
vagy érdekes alkalmazási területet 15 megemlítünk. Egyes alkalmazási példák részletesebben 15 bemutatásra 
kerülnek. 


A 9. fejezet a moduláris hálók témakörrel foglalkozik. A fejezet alapgondolata, hogy komplex feladatok 
megoldása általában csak összetett rendszerekkel lehetséges, ahol az egyes részrendszerek egymással vagy 
versengenek vagy együttműködnek. Egyes esetekben a kétfajta működés együttesen 15 megjelenhet. Bár a 
moduláris hálóknak nagyon sokféle változatát dolgozták ki, itt csak néhánynak a bemutatására vállalkozunk. 
Ezek között 15 a legfontosabbnak az ún. szakértőegyüttes (Mixture of Experts, MOE) architektúrát tekintjük, 
mivel ez önmagában 15 érdekes elvi megállapításokon alapul. Hasonlóan fontos témakör a moduláris hálók 
olyan konstrukciója, ahol a tanítópontok egyféle válogatása 15 szerepet játszik a moduláris architektúra 
kialakításában. Az ún. boosting algoritmusok, valamint az erős és gyenge tanulással kapcsolatos eredmények a 
neuronhálók témakörén messze túlmutató jelentőségűek. 


A 10. fejezet a nemellenőrzött tanítású hálókkal foglalkozik. Bemutatja a klasszikus eredményeket (pl. Kohonen 
hálók), de röviden tárgyalja a legújabb kernel PCA és ICA hálózatokat 15, kiemelve ezen eljárások fontos 
gyakorlati alkalmazási lehetőségeit. 
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A 11. fejezet az ún. analitikus tanítású hálókkal foglalkozik. Ennek a résznek a súlya a könyvben minden 
bizonnyal kisebb a jelentőségénél. Indoklásként az hozható fel, hogy ezek a hálók kisebb szerepet játszanak a 
méréstechnikai, jelfeldolgozási alkalmazásoknál. 


A neuronhálók meglehetősen univerzális feladatmegoldó eszközök. Összetett, bonyolult gyakorlati problémák 
megoldásában azonban legtöbbször önmagukban nem alkalmazhatók, inkább csak részfeladatok megoldásában 
jelentenek nagy segítséget. Általában elmondható, hogy egy komplex feladat megoldása az esetek döntő 
többségében különböző megközelítések együttes alkalmazásával lesz sikeres. Az utóbbi évtizedben ezért egyre 
inkább megfigyelhető az a tendencia, amely a különböző eszközök ötvözésére törekszik. A neurális számító 
eszközöket ezért előszeretettel alkalmazzák együtt más "szoft" számítási megközelítésekkel, a hagyományos 
mesterséges intelligencia eszközeivel, de a hagyományos algoritmikus megoldásokkal is. Az ilyen hibrid 
módszerek keresése és alkalmazása jelentheti a továbblépés egyik irányát. A 12. fejezet a hibrid-neurális 
rendszerekkel és ezek néhány konkrét megvalósítási lehetőségével foglalkozik röviden. 


A 13. fejezet a neuronhálók néhány, a gyakorlati alkalmazások szempontjából fontos kérdését foglalja össze. 
Ezekkel a kérdésekkel szinte minden gyakorlati feladat megoldásánál találkozunk. Fontosságukat az indokolja, 
hogy e kérdések vizsgálata, az ítt bemutatott problémákkal való foglalkozás nélkül a neuronhálók gyakorlati 
feladatokra való alkalmazása esetenként nagyon nehéz, sokszor sikertelen lesz. 


A könyvet egy rövid kitekintés, egy Függelék, egy viszonylag sok tételes irodalomlista és egy rövid szótár zárja. 
A Függelék azokat a legfontosabb matematikai alapismereteket foglalja össze, melyek ismerete az egyes 
fejezetek megértéséhez feltétlenül szükséges. Az irodalomlista célja, hogy segítse mindazokat, akik a neurális 
hálózatokkal mélyebben szeretnének megismerkedni, a szótárban pedig a legfontosabb neurális hálózatokhoz 
kapcsolódó kifejezéseket (angolul és magyarul) gyűjtjük össze. A szótár kapcsán meg kell jegyeznünk, hogy a 
neurális számítástechnika számos szakkifejezésének máig nincs magyar megfelelője. A könyvben sem 
törekedtünk a mindenáron való , magyarításra". Csak azoknál a kifejezéseknél, fogalmaknál használtunk magyar 
elnevezéseket, ahol ezeket a szakma többé-kevésbé már elfogadta, illetve ahol a magyar elnevezés nem tűnik 
nagyon erőltetettnek. 


A könyv szándékaink ellenére nyilván számos hibát tartalmaz. Reméljük, hogy az olvasók ezen hibákat 
észrevéve hozzásegítenek a kijavításukhoz. 


A könyv elkészültét több pályázat 15 segítette, melyek közül ki kell emelni a T 046771 sz. OTKA kutatási 
projektet, ugyanis a könyvben szereplő egyes részek kidolgozása az említett OTKA projekt keretében valósult 
meg. 


A könyv elektronikus változata egy TAMOP projekt (TÁMOP-4.1.2-08/2/A/KMR-2009-0026) keretében 
született meg. Az elektronikus változat alapvetően a 2006-os nyomtatott kiadás megfelelője. Néhány különbség 
azonban található a kétféle verzió között. Egyrészt az elektronikus verzióban a nyomtatott verzió hibáit 
igyekeztünk kijavítani, másrészt egyes fejezeteknél az eredeti verzióhoz képest kisebb mértékben bővült a 
szöveg. 


Budapest, 2011. január 15. 


Horváth Gábor 
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A neurális hálózatok olyan, számítási feladatok megoldására létrejött párhuzamos feldolgozást végző, adaptív 
eszközök, melyek eredete a biológiai rendszerektől származtatható. Az idegrendszer tanulmányozása, az 
idegsejt (neuron) felépítésének, illetve működésének valamilyen szinten való megismerése indította el azt a 
gondolkodást, hogy kíséreljünk meg az élő szervezetekben létező, bonyolult rendszerek mintájára létrehozni 
számító rendszereket. A biológiai, "természetes" neurális hálózatoknál nagyszámú, hasonló vagy azonos 
felépítésű, egymással összeköttetésben lévő építőelemekből, idegsejtekből felépülő hálózatok a legkülönfélébb 
feladatok ellátására bizonyulnak alkalmasnak. 


A természetes neurális hálózatok számos feladat megoldásánál nemcsak alkalmasnak, hanem alapvetően 
jobbnak is bizonyulnak, mint a hagyományos algoritmikus számítási rendszerek. Ilyen feladatok tipikusan a 
különféle felismerési problémák, kezdve a viszonylag egyszerű nyomtatott számok és karakterek felismerésétől 
a jóval bonyolultabb kézírás-, kép- és egyéb alakzatfelismerésekig. A felismerési feladatokat a "kellően összetett 
biológiai neurális hálózattal" rendelkező élőlények minták alapján tanulják meg. Egy arc felismerése az ember 
számára egy cseppet sem jelent megerőltető feladatot, annak ellenére, hogy nehéz megmondani milyen módon 
végezzük a felismerést, nehéz megnevezni azokat a jegyeket, melyek az adott arc egyértelmű vagy legalábbis 
nagy biztonságú felismerését lehetővé teszik, és ennek megfelelően nehéz olyan algoritmikus megoldást találni, 
amely hasonlóan sikeres e feladat megoldásában, mint az ember. 


A biológiai neurális rendszerek nagymértékben párhuzamos felépítéssel és tanulási képességgel rendelkeznek; e 
két jellemzőjük következtében jelentősen különböznek a hagyományos számítástechnikai eszközöktől. Ráadásul 
bizonyos feladatokban — tipikusan azon feladatokban, melyekre hatékony algoritmikus megoldást eddig nem 
sikerült találni — jó eredmény elérését teszik lehetővé. Ezért vetődött fel olyan számítási rendszerek — 
"mesterséges" neurális hálózatok — létrehozásának lehetősége, amelyek a hagyományos algoritmikus 
eljárásokkal dolgozó eszközök helyett, a biológiai neurális hálózatokhoz hasonló felépítésűek és melyek 
tanulással nyerik el azt a képességüket, hogy bizonyos feladatokat meg tudnak oldani. 


A felismerési feladatokon kívül sok egyéb olyan problémával találkozunk, ahol jelenleg nem ismert 
algoritmikus megoldás, vagy ha van 1s ilyen, az annyira bonyolult és/vagy olyan sok műveletet igényel, hogy 
reálisan elfogadható idő alatt a mai legnagyobb teljesítményű számítógépekkel sem oldható meg. 


E feladatok egy részénél — ilyenek pl. komplex ipari, gazdasági vagy pénzügyi folyamatok időbeli 
viselkedésének előrejelzése — a megoldás nehézsége általában abból ered, hogy nem rendelkezünk azzal a 
tudással, amely az algoritmikus megoldáshoz szükséges lenne. Alapvetően kétféle tudásra lenne szükségünk: 
egyrészt a folyamatok mögött meghúzódó fizikai, közgazdasági, stb. törvényszerűségeket kellene ismernünk, 
másrészt a törvényszerűségek ismeretében 15 csak akkor tudnánk a feladatot megoldani, ha a folyamatokat 
létrehozó rendszerek pillanatnyi állapotát és e rendszerekre ható összes vagy legalább minden lényeges hatást, a 
környezeti feltételeket 15 ismernénk. A feladatokról ugyanakkor más formában — adatokban megtestesülve — 
rendelkezésünkre áll tudás, amelyet ha fel tudunk használni, a feladat valamilyen megoldásához eljuthatunk. 
Egy adott problémáról mindig véges számú adatunk lehet, továbbá az adatok által hordozott tudás sohasem 
teljes. Mégis a természetes neurális hálók képesek az adatokból nyert ismeretek általánosítására: olyan 
szituációkban 15 Jó választ adnak, melyek az adatok között nem találhatók meg. Egyes mesterséges neurális 
hálók 15 rendelkeznek ezzel a képességgel. Ez azt jelenti, hogy hiányos, esetleg pontatlan ismereteket hordozó, 
legtöbbször zajos adatokból 15 kinyerhető általános tudás. Ez a tudás azonban a feladat "tökéletes" megoldását 
rendszerint nem teszi lehetővé, viszont "Jó" megoldás elérését biztosítja. 


A feladatok másik csoportjánál a megfelelő tudás birtokában vagyunk, sőt létezik 15 algoritmikus megoldás. A 
megoldás bonyolultsága, a megoldás eléréséhez szükséges számítások mennyisége azonban a feladat méretével 
exponenciálisan nő. Az ilyen NP-teljes feladatok esetében 15 sokszor megelégszünk egy "jó", tehát nem a 
legjobb megoldással, ha a számítási komplexitást sikerül a polinomiális komplexitási tartományba leszorítani. E 
csoportba tartoznak pl. a kombinatorikus optimalizálási feladatok. A természetes neuronhálókhoz hasonlóan 
bizonyos mesterséges neuronhálók 15 alkalmasak optimalizálási feladatok megoldására, ahol a megoldás 
optimalitása általában nem garantálható, de az optimálishoz közeli megoldás elérésének a valószínűsége nagy. 


A természetes neuronhálóknak van még számos olyan tulajdonsága, melyek, ha megvalósíthatók a mesterséges 
neurális hálózatokban is, a gyakorlati alkalmazások körét jelentősen bővítik. Ezek közül az egyik legfontosabb a 
párhuzamos felépítés és működés. A neurális architektúrák nagymértékű párhuzamossága a nagysebességű 
működés egyik biztosítéka. A nagyfokú párhuzamosság — ami többnyire redundanciával 15 párosul — robusztus 
működést, egyfajta hibatűrő képességet 15 biztosít a neurális rendszereknek. Közismert, hogy ha valami, pl. 
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baleset vagy betegség folytán az emberi agy egyes területei megsérülnek, ez nem feltétlenül jelenti bizonyos 
képességek elvesztését. Sőt, az előbb említett sérülés olyan súlyos is lehet, hogy egyes agyterületek elvesztik 
működőképességüket, bizonyos funkciók nem működnek. Mégis idővel ezek a funkciók helyreállhatnak, más 
agyterületek átveszik a sérült részek feladatait. Ugyancsak fontos tulajdonság az adaptációs képesség, a változó 
környezethez való alkalmazkodás képessége. 


A mesterséges neurális hálózatok párhuzamos hardver megvalósítása olyan működési sebesség elérését teheti 
lehetővé, hogy egyes alkalmazásokban a neurális megoldás már csak ezért 15 egyedülálló. Bizonyos feladatoknál 
a neurális megoldás nagymértékben párhuzamos működése miatt az algoritmikus megoldás neurális 
jellemző, így a robusztus működés, a háló egyes részeinek hibája esetén a fokozatos és nem ugrásszerű 
működésbeli degradáció a mesterséges neuronhálóknál 15 megtalálható. A folyamatos tanulás képessége pedig a 
környezet változásaihoz való alkalmazkodást 15 lehetővé teszt. 


A neurális hálózatok tehát alkalmasak lehetnek olyan feladatok megoldására, amelyek a hagyományos 
algoritmikus megközelítéssel nem vagy nehezen oldhatók meg, de amelyeket még az ún. klasszikus mesterséges 
intelligencia módszereivel (pl. szabályalapú rendszerek) sem sikerül kielégítően megoldant. 


Az alapgondolat, hogy a természetes neurális hálók mintájára hozzunk létre mesterséges számító rendszereket 
meglehetősen régi. A kezdeti lökést természetesen az idegsejttel kapcsolatos kutatási eredmények adták, 
elsősorban Warren McCulloch és Walter Pitts neuron modellje [McC43], majd Donald Hebb tanulással 
kapcsolatos eredményei [Heb49]. Jónéhány évnek el kellett azonban telnie addig, amíg az első mesterséges 
neuron és az ebből, mint alapegységből felépülő mesterséges neurális hálózat megjelent. Az egyszerű neuron 
modell valójában nem más, mint egy többdimenziós bemenet komponenseinek súlyozott összegét meghatározó, 
tehát lineáris kombinációt megvalósító hálózat, amelyet egy nemlineáris leképezés követ. A modell érdekessége 
elsősorban nem 1s a felépítésében, hanem abban az eljárásban keresendő, amely biztosítja, hogy egy neuron 
valamilyen kívánt működést mutasson. A kívánt működés — amely összerendelt be- és kimeneti értékekkel 
specifikálható — megfelelő konvergens iteratív eljárással, tanuló eljárással érhető el. A tanulás itt egyszerűen azt 
jelenti, hogy a kívánt működést reprezentáló, összetartozó be- és kimeneti értékek alapján a hálózat maga 
alakítja ki a megfelelő átvitelét, illetve a hálózat bemenetére kerülő adatokban önmaga próbál valamilyen 
hasonlóságot felfedni. Ezen egyszerű, tanulásra képes modell alapján hozta létre Frank Rosenblatt a Perceptront 
IRos58], amely már egyszerű osztályozási feladatok megoldására megtanítható volt. Rosenblatt első 
eredményeit hamarosan követte a Bernard Widrow és munkatársai által definiált Adaline és a hozzá kapcsolódó 
Widrow-Hoff tanulási algoritmus [Wid6O0], ill. az egyedi "neuront", processzáló elemet hamarosan 
kiterjesztették neuronokból felépülő hálózatokká, lehetővé téve komplexebb feladatok megoldását. 


A neurális hálózatok (neurális hálók, neuronhálók) kezdeti, igen ígéretesnek mutatkozó fejlődése azonban 
hamarosan megtorpant, amikor Marvin Minsky és Seymour Papert kimutatták Perceptrons című könyvükben 
[Min69], hogy a perceptron valójában csak lineárisan szeparálható osztályozási feladatok megoldására képes, 
ami a megoldandó feladatoknak csak egy nagyon kis köre. Ez azt jelenti, hogy egy perceptron még egy olyan 
egyszerű feladatot sem képes megtanulni, mint két bináris változó kizáró VAGY (XOR) kapcsolata. Bár Minsky 
könyvében megmutatta, hogy ha az egyszerű processzáló elemeket rétegekbe rendezzük és többrétegű hálózatot 
hozunk létre, akkor a hálózat nemlineáris szeparálásra 15 képes, azonban akkor nem találták meg azt az 
algoritmust, amely egy többrétegű hálózat be- és kimeneti mintapárok alapján történő tanítására alkalmas lett 
volna (sőt Minsky annak a sejtésének adott hangot, hogy ilyen algoritmust nem is lehet létrehozni). A 
hálózatnak e hiányossága (és a kritikus megfelelő tekintélye: Marvin Minsky az MIT professzora volt) azt 
eredményezte, hogy az e területre irányuló érdeklődés jelentősen csökkent, csaknem megszünt; a terület 
kutatásával majdnem teljesen felhagytak. 


Mintegy húsz évet kellett várni ahhoz, hogy ismét megélénküljön a neurális hálózatok iránti érdeklődés. Az 
élénkülést az váltotta ki, hogy — az általános tendenciák ellenére — néhányan mégiscsak folyatták a hálókkal 
kapcsolatos kutatásaikat és olyan eredményeket értek el, amelyek ismét ráirányították a szakmai közvélemény 
figyelmét a neurális hálózatokra. Az érdeklődés felkeltésében a legfontosabb esemény talán az ún. Hopfield- 
háló publikálása volt [Hop$2], amely bemutatta, hogy egy viszonylag egyszerű hálózat hogyan képes 
optimalizálási feladatok — köztük NP-teljes feladatok — megoldására. További jelentős eredmény volt az ún. 
hibavisszaterjesztéses (back-propagation) algoritmus "felfedezése", amely hatékonynak bizonyult a többrétegű 
hálózatok tanításánál, s amely cáfolatát adta Minsky sejtésének. Az algoritmust 1986-ban publikálta a David 
Rumelhart, Geoffrey Hinton, Ronald Williams szerzőhármas [Rum86] és egyben be 15 mutatták az algoritmus 
hatékonyságát. Később kiderült, hogy ugyanezt az algoritmust már többször 15 megkonstruálták, de különböző 
okok folytán akkor nem váltott ki komolyabb érdeklődést [Bry69], [Wer74]. 
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A nyolcvanas évek második fele óta a neurális hálózatok kutatása reneszánszát éli. A megélénkült kutatások 
következtében egyre növekvő számban jelentek meg és jelennek meg a témakör különböző elméleti és 
gyakorlati kérdéseivel foglalkozó cikkek, könyvek; évente egyre több konferencia kerül megrendezésre a 
neurális hálózatok témakörben. A nagy érdeklődésnek káros hatásai 15 megmutatkoznak. A neurális hálózatokat 
időnként úgy állítják be, mint bármilyen feladatra alkalmazható univerzális eszközöket, és olyan esetekben 15 
alkalmazzák, vagy javasolják alkalmazni, amikor más, hagyományos eljárások hasznosabbnak bizonyulnak. Az 
alkalmazási területek között vannak valóban olyanok, ahol a neurális hálózatoknak komoly előnyeik vannak. 
Ezek elsősorban olyan területek, ahol más, algoritmikus megoldás eddig nemigen vezetett eredményre vagy 
azért, mert eddig nem sikerült ilyen algoritmikus megoldást találni, vagy azért, mert ezen megoldások túl 
bonyolultaknak bizonyultak, s így mindenképpen indokolt más, egyszerűbb, gyorsabb, könnyebben 
megvalósítható megoldások keresése. Ilyen feladatoknak tekinthetők a már említett különböző felismerési 
problémák, vagy a különböző optimalizálási feladatok. Hasonlóan fontos alkalmazási terület a nemlineáris 
rendszerek vizsgálata, identifikációja, irányítása, ahol — eltérően a lineáris rendszerektől — nem alakult még ki 
olyan matematikailag megalapozott elmélet, amely biztosítaná az algoritmikus megoldások fölényét. 


A neurális hálózatok tudománya egy fejlődésben lévő tudomány. Az újabban megélénkült kutatások 
eredményeképpen most már nemcsak azt sikerült bemutatni, hogy a neurális hálózatok komplex feladatok 
megoldásában igen hasznosnak bizonyulnak, hanem az ehhez szükséges elméleti alapokat — vagy legalábbis 
számos elméleti alaperedményt — 1s sikerült kidolgozni. Bizonyított tény pl., hogy megfelelő felépítésű neurális 
vagyis, hogy a neurális hálózat univerzális approximátornak tekinthető. E képességük révén a hálózatok 
alkalmasak nemlineáris (statikus vagy dinamikus) rendszerek modellezésére. Ugyancsak bizonyítható, hogy 
megfelelő tanulási algoritmussal, adott felépítésű hálózat alkalmassá tehető adatokban meglévő hasonlóságok 
felismerésére, az adatokban rejtve meglévő ismeretek kinyerésére, tehát egyfajta adatbányászati eszköznek 15 
tekinthető. Az approximációs képesség megfelelően interpretált feladat esetén osztályozási képességet 1s jelent, 
egyes hálók ezért univerzális osztályozók 1s. A neurális hálózatokhoz kapcsolódó kutatások számos, a tanulással 
kapcsolatos eredményre 15 vezettek, ezért nagyban hozzájárultak a gépi tanulás fejlődéséhez. Az elméleti 
eredmények elsősorban a hálózatok működésének megértésében segítenek, tisztázzák a hálózatok korlátait, 
lehetőségeit, új hálóarchitektúrák kialakítását teszik lehetővé, és nagymértékben segítik a gyakorlati 
felhasználást. 


A neurális hálózatok kutatása számos ponton kapcsolódik az egyéb, lineáris és nemlineáris rendszerekkel 
foglalkozó kutatásokhoz. Így különösen sok kapcsolódási pont található a neurális hálózatok és az adaptív 
rendszerek között — lévén, hogy a neurális hálózatok 15 egyfajta adaptív működést valósítanak meg. Hasonlóan 
erős a kapcsolat a neurális információfeldolgozás és a parallel feldolgozás között, hiszen mint láttuk, a neurális 
hálók maguk is elosztott párhuzamos számító rendszerek. És az is természetes, hogy a neurális hálózatok 
kutatása kezdetektől fogva mindvégig szoros kapcsolatban áll bizonyos biológiai kutatásokkal, elsősorban az 
idegrendszeri- és agykutatásokkal, hiszen a mesterséges neurális hálók számos eredménye biológiai 
kutatásokon, megfigyeléseken alapul. 


Az elmúlt években megszületett, matematikailag megalapozott eredmények ellenére számos megválaszolatlan 
kérdés maradt, ezért a hálózatokkal kapcsolatos feladatmegoldásokban heurisztikus elemekkel, tapasztalatokból 
levont következtetések alkalmazásával 15 találkozunk. Az intenzív kutatás következtében azonban várható, hogy 
egyre több kérdésre születik egzakt válasz, lehetővé téve így, hogy egyre pontosabban meghatározzuk azon 
feladatok körét, ahol lehet és érdemes 1s neurális hálózatokat alkalmazni. 
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A fejezet célja a neurális hálózatok felépítésével kapcsolatos legfontosabb alapfogalmak, alapvető definíciók és 
háló-topológiák áttekintése, valamint annak bemutatása, hogy a legfontosabb neuronháló architektúrák milyen 
számítási képességekkel rendelkeznek. A fejezet röviden bemutatja azt 15, hogy a számítási képességek alapján a 
neuronhálók milyen feladattípusok megoldásában alkalmazhatók sikerrel. A fogalmakat és a definíciókat 
tekintve elsősorban az igen gazdag és szerteágazó angol irodalomból indulunk ki. Bár neuronhálókkal 
kapcsolatos kutatások a 90-es évek kezdete óta már Magyarországon 1s folynak, sőt számos hazai neuronháló- 
alapú gyakorlati alkalmazás 15 született, a neuronhálók minden vonatkozására kiterjedő egységes magyar nyelvű 
terminológia a mai napig nem alakult ki. Ezért ennek a fejezetnek az 15 a célja, hogy megkísérelje a különböző 
angol nyelvű terminológiákat egy közös magyar elnevezésrendszerre leképezni. A fejezetben ezért igyekszünk 
megadni az általunk használt magyar elnevezések gyakrabban alkalmazott változatait és ezek angol megfelelőit 
1S. 


Az 1.1 alfejezet a neurális hálózatokhoz kapcsolódó legfontosabb definíciókat adja meg. Az 1.2 alfejezet a 
neurális hálózatok alapelemeit és a fontosabb neuronháló elrendezéseket mutatja be. Az 1.3 alfejezet a 
neuronhálók alapvető képességeit veszi sorra és ehhez kapcsolódóan néhány fontos matematikai eredményt 
ismertet. 


1. A neurális hálózat definíciója, működése 


Neurális hálózatnak nevezzük azt a hardver vagy szoftver megvalósítású párhuzamos, elosztott működésre 
képes információfeldolgozó eszközt, amely: 


e azonos, vagy hasonló típusú — általában nagyszámú — lokális feldolgozást végző műveleti elem, neuron 


ed ZAcáRT a 


e rendelkezik tanulási algoritmussal (learning algorithm), mely általában minta alapján való tanulást jelent, és 
amely az információfeldolgozás módját határozza meg, 


e rendelkezik a megtanult információ felhasználását lehetővé tevő információ előhívási, vagy röviden előhívási 
algoritmussal (recall algorithm). 


A fenti definíció kulcsfogalmainak tisztázására a következőkben rendre megvizsgáljuk az alkalmazott műveleti 
elemek (neuronok) felépítését, az összeköttetéseket, illetve a tipikus topológiákat. A tanulási algoritmusok 
részletesebb áttekintésére a 2. fejezetben kerül sor, ebben a fejezetben csupán az alapfogalmakra utalunk. 


A fentiek értelmében a neurális hálózatok működésénél tipikusan két fázist különböztethetünk meg. Az első 
fázis, melyet tanulási fázisnak nevezünk, a hálózat kialakítására szolgál, melynek során a hálózatba valamilyen 
módon beépítjük, eltároljuk a rendelkezésre álló mintákban rejtve meglévő információt. Eredményként egy 
információ-feldolgozó rendszert kapunk, melynek használatára általában a második fázisban, az előhívási 
fázisban kerül sor. A két fázis a legtöbb esetben időben szétválik. A tanulási fázis rendszerint lassú, hosszú 
iterációkat, tranzienseket, esetleg sikertelen tanulási szakaszokat 15 hordoz. Ezzel szemben az előhívási fázis 
tipikusan gyors feldolgozást jelent (bár — a visszacsatolt hálózatok esetén, Id. 1.2.3. alfejezet — ez is lehet 
tranziensekkel terhelt). 


A két fázis mindamellett nem minden esetben válik szét, adaptív viselkedésű hálók az információ előhívási 
szakaszban 15 módosítják a képességeiket, tulajdonságaikat, tanulnak. Erre abban az esetben van szükség, ha a 
környezet vagy a minták által szolgáltatott információ időben változik, így az információ -feldolgozó eljárásnak 
is változni kell. Ezekre a hálózatokra 15 jellemző mindazonáltal, hogy egy hosszabb, tisztán tanulási szakasz 
előzi meg a párhuzamos tanulási-előhívási szakaszt. 


Hangsúlyoznunk kell, hogy bár a fentiek értelmében más programozási eljárások 15 felfoghatók tanításnak, a 
neurális hálók esetén az eljárás döntően eltér a hagyományostól. Procedurális programozás esetén például 
valamilyen matematikai algoritmus kódolását, deklaratív programozás esetén pedig a probléma leírását, 
matematikai modelljének megalkotását végezzük el. Neurális hálók tanításánál viszont a bemeneti vagy a 
bemeneti és a kimeneti ismert minták alapján a neurális háló paramétereit módosítjuk a kívánt leképezés 
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megvalósítása érdekében, anélkül, hogy előzetesen a problémához illeszkedő speciális modellt vagy algoritmust 
alkotnánk. A neurális háló felépítése, mint látni fogjuk, rendszerint általános, a megoldandó feladatok 
viszonylag széles körére alkalmas. Az egyes konkrét feladatok megoldása legtöbb esetben az általános 
struktúrájú eszköz paramétereinek a tanulás során való beállításával történik. 


2. A neurális hálózat elemei, topológiája 


2.1. A neuronok felépítése 


Egy neuron vagy műveleti elem, processzáló elem (processing element) egy több-bemenetű, egy-kimenetű 
eszköz, amely a bemenetek és a kimenet között általában valamilyen nemlineáris leképezést valósít meg. Egy 
neuron rendelkezhet lokális memóriával 15, amelyben akár bemeneti, akár kimeneti értékeket vagy a működés 
előéletére vonatkozó állapotinformációt tárolhat. A bemeneti- vagy a bemeneti- és a tárolt értékekből az aktuális 
kimeneti értéket egy tipikusan nemlineáris függvény alkalmazásával hozza létre, melyet aktiváló vagy 
aktivációs függvénynek nevezünk (activation function). (Használnak egyéb magyar és angol elnevezéseket 1s, 
mint pl. neuron esetén feldolgozó elem, vagy csomópont (node); aktivációs függvény esetén pl. transzfer 
függvény (transfer function). 


1.1. ábra - A neuron általános, elvi felépítése 


transzfer 
függvény 


lokalis 
memória 





A neuronok rendelkeznek változó értékeket (a hálózat bemeneti jelei, más neuronok kimeneti jelei) hordozó 
bemenetekkel, illetve rendelkezhetnek állandó értéket hordozó bemenettel, pl. ilyen az 1.1] ábrán x,. Az ábrán 
kitüntetett szerepű aktiváló bemenet diszkrét idejű működés esetén a hálózat ütemezését vezérli, folytonos idejű 
működés esetén elmarad. A neuron működését az alábbi matematikai formában adhatjuk meg (diszkrét idejű 
hálózatra, ahol k az időlépés indexe): 


vi) — 7 ixéiki, xi — Dh,...,xtr— Ada, yér— 1), ..., vit — 41 (1.1 


sz T 
ahol EE) — [dd za kaszt] Az áttekinthetőség kedvéért az N változó- és az egyetlen konstans bemenetet 


ői i . pív HANA B ; z m.j 
egy N-1 elemű x vektorba fogtuk össze. Ebben az esetben a neuron egy / : leképezést valósít 
meg. 
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1.2. ábra - Egyenrangú bemenetekkel rendelkező memória nélküli neuron (perceptron) 
felépítése 


súlyok 


A ; HW ; 


kimenet 
bemenetek 





nemlineáris 
r ha ; 
transzfer függvény 


A fenti általános felépítést az alábbiakban néhány fontos, elterjedt esetre konkretizáljuk. A műveleti elemek 
legegyszerűbb és egyben legelterjedtebb változata az egyenrangú bemenetekkel rendelkező memória nélküli 
neuron, melynek tipikus felépítése az 1.2 ábrán látható. A bemutatott neuron esetén az x; skalár bemenetek w; 
(1-0, 1,....N) súlyozással kerülnek összegzésre, majd a súlyozott összeg egy f(.) nemlineáris elemre kerül. Szokás 
az 1.2 ábrán látható neuronok esetén a bemeneti jelek súlyozott összegét (az összegző hálózat s kimeneti jelét, 
mely a nemlinearitás bemenete) ingernek (excitation), míg a kimeneti jelet válasznak (activation) nevezni. Ezek 
az elnevezések az egyes területeken ma 15 erősen hivatkozott biológiai analógiára utalnak. 


Egyes neuronhálóknál a nemlineáris transzfer függvény elmarad, így lineáris neuronokról is beszélhetünk. Az 
ilyen lineáris súlyozott összegzőt megvalósító neuront önmagában viszonylag ritkán használják, legtöbbször egy 
nagyobb hálózat kimeneteinek előállítására szolgál. Vannak azonban olyan nemellenőrzött tanítású hálók, 
amelyek lineáris neuronokból épülnek fel. Ezeknél a hálóknál a speciális tulajdonságot a súlyok kialakítása, a 
speciális tanulási eljárás biztosítja. 


ég. 


Pit 
5-9 ga x 


(0 . (1.2) 


A memória nélküli neuronok lineáris változata esetén az összegző kimenete közvetlenül a neuron kimenetét 15 
jelenti: 


y-5-w X (1.3) 


1.3. ábra - Neuronokban használt tipikus nemlinearitások 
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jr] s50 
5-1 szű 


(a) 


lépcsősfüggvény 


y(s) 





(c) 
tangens hiberbolikusz függvény 
(K-2-nél) 


y(5) 








t] so] 
! ta ji —]zszl] 
E s -—] 


(b) 


telítéses lineáris függvény 


y(s) 





yz 


1-4e" 


(d) 


logisztikus függvény 


Az 1.2 ábrán bemutatott, összegzővel sorbakapcsolt nemlinearitást használó egyszerű felépítésű neuront 
perceptron néven Frank Rosenblatt [Ros58], illetve adaline néven Bernard Widrow [W1d60] javasolta. A két 
neuron-modell felépítése megegyezik, eltérés csupán az alkalmazott tanítási eljárásokban van, melyeket a 3. 
fejezetben mutatunk be. Mind az adaline, mind a Rosenblatt-perceptron által megvalósított leképezést a (1.4) 


összefüggés adja meg: 
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y- fe-é lex] 1 
A nemlineáris aktivációs függvény tipikusan küszöbfüggvény jellegű leképezés, melynek értelmezési 
tartománya általában a valós számok halmaza, értékkészlete pedig a valós számok egy korlátos részhalmaza. 
Négy legelterjedtebb változata az 1.3 ábrán látható. Az első (a) az ugrásfüggvény, a második (b) a telítéses 
lineáris függvény, a harmadik (c) és negyedik (d) folytonos, monoton növekvő, telítődő jellegű függvények, 
melyeket a szigmoid függvényeknek nevezünk. A szigmoid függvényeknek kitüntetett szerepük van a 
neuronhálóknál. Két leggyakoribb megvalósítási formájuk a tangens hiperbolikusz és a logisztikus függvény. 


Egyes estekben a neuron bemeneteit csoportokba osztjuk aszerint, hogy a bemeneti jel a neuron kimenetén a 
válaszjelet növeli, vagy csökkenti. Ezeket a bemeneti jelcsoportokat a biológiai analógia alapján gerjesztő 
(excitory inputs), illetve gátló (inhibitory inputs) bemeneteknek nevezzük. A gerjesztő és gátló bemenetekkel 15 
rendelkező memória nélküli neuronokra példa a Fukushima által képfeldolgozásra javasolt típus [Fuk88]. 


A memória nélküli neuronok másik típusát kapjuk, ha az 1.4 ábrán látható struktúra azon speciális változatát 
használjuk, mikor minden bemenet közvetlenül a nemlineáris elemre Jut, azaz a nemlineáris aktivációs függvény 
előtt elmarad az összegzés, viszont nem egybemenetű, hanem N-bemenetű a nemlinearitás. Ennek elterjedt és 
napjainkban nagy jelentőségű típusa az RBF (Radial Basis Function) hálózatban használt neuron, de ebbe a 
csoportba sorolható az összes többi bázisfüggvényes hálózat 15. A bázisfüggvényes hálózatokra jellemző még, 
hogy általában maga a bázisfüggvény 1s tartalmaz paramétereket, melyeket a háló konstrukciójakor valamilyen 
módon meg kell határozni. 


Az 1.4 ábrán látható, hogy a kimenet tulajdonképpen a bemeneti vektor, x—[x:, x2, . . ., xv]" és egy, a neuronra 
jellemző €c—[ci, ca, . . . , cwI" középpont-vektor távolságának nemlineáris függvénye. Az ábrán az euklideszi 
távolságdefiníciót használtuk, de nincs akadálya egyéb távolságfogalmak bevezetésének és használatának sem. 


A legelterjedtebb esetben Gauss függvényt használunk nemlinearitásként, melynek c középpont-vektora mellett 
paramétere még a függvény szélességét meghatározó c 1s. 


1.4. ábra - Bemeneti összegzést nem használó neuron 


(1 


XX 





XN 


1.5. ábra - Példa memóriával rendelkező neuronra 
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Az 1.5 ábrán egy a kimenetén 82 lineáris dinamikus hálózattal (lineáris szűrővel) kiegészített (eredetileg) 
memória nélküli neuron látható. Az ábrán mind folytonos, mind diszkrét idejű esetre egy-egy konkrét, egyszerű 
dinamikus hálózatot 1s felrajzoltunk, csupán a szemléltetés kedvéért. (Ezek ebben a formában nem feltétlenül 
használhatók.) 


Az ábrán látható eset kiegészíthető bemeneti lineáris szűrőkkel is, illetve kiterjeszthető több-bemenetű 
nemlinearitásra 1s, így egyre bonyolultabb modelleket nyerhetünk. (Természetesen míg a bonyolultabb modell 
komplexebb problémákra alkalmazható, addig megvalósítási, stabilitási, konvergencia stb. gondokat vethet fel.) 
Bonyolultabb esetre példa az 1.6 ábrán látható, memóriával és M-bemenetű aktivációs függvénnyel rendelkező 
neuron, mely képes az 1.1] ábrán látható általános műveleti elemmel kialakítható legtöbb funkció 
megvalósítására. A neuron struktúrája azonban kötöttebb, mint az 1.1 ábrán látható esetben. A tárolási funkció 
itt 15 a neuron bemenetén és kimenetén felépített lineáris dinamikus rendszerekben valósul meg. 
(Implementációs előnyt jelenthet, ha az összegzők kimenetén — az s, ...,Sw Jelek szűrésére — valósítjuk meg a 
lineáris szűrőket, ezek azonban az összegzők bemenetére transzformálhatók, így az elvi áttekintésre elég az 1.6 
ábrán látható struktúra.) Diszkrét idejű hálózatokban attól függően, hogy a neuronban használt szűrőhálózatok 
véges impulzusválaszúak (finite impulse response, FIR szűrők), vagy végtelen impulzusválaszúak (infinite 
impulse response, IIR szűrők) FIR neuronokról vagy IIR neuronokról beszélünk [Wan901]; [Le191]. 
Természetesen nincs akadálya egyéb kombinációk kialakításának, pl. a bemeneten FIR, a kimeneten IIR 
szűrőket használó változatnak sem. 


1.6. ábra - FIR/IIR neuron struktúra 
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2.2. A neurális hálózatban használt összeköttetések 


A neurális hálózatban használt összeköttetések egyirányú Jjelterjedést biztosítanak a hálózat bemenete vagy egy 
neuron kimenete felől egy neuron bemenete vagy a hálózat kimenete felé. Egy kimenet több (általában 
tetszőleges számú) bemenettel köthető össze, ekkor valamennyi bemenet ugyanazt a jelet kapja. Kimeneteket 
egymással nem köthetünk össze. Az összeköttetések késleltetés nélküliek (az esetleges késleltetéseket szűrővel 
modellezhetjük a neuron bemenetén). 


Elsősorban az 1.2.1 fejezetben tárgyalt memória nélküli neuronoknál a bemeneti súlytényezőket gyakran az 
aktuális bemenetekhez vezető összeköttetésekhez rendelik, nem a neuronhoz. Ez semmilyen elvi különbséget 
sem jelent. 


2.3. A neurális hálózatok topológiája 


balt örölt d 


jetőő lető a 


felelnek meg, míg a kapcsolatokat a kimenetek és bemenetek között a gráf élei reprezentálják, a neuron- 
bemenettől a kimenet felé irányítva. (Az élekhez értelemszerűen hozzárendelhetjük a megfelelő w; bemeneti 
súlytényezőket vagy a H.(z") szűrőket, Id. 1.2.1 alfejezet.) 


A gráf egyes csomópontjai rendszerint nincsenek az összes többi csomóponttal kapcsolatban, csupán a 
csomópontok egy részhalmazával. Ez legtöbbször lehetőséget nyújt arra, hogy a gráf csomópontjainak — a 
neuronoknak —-— halmazát diszjunkt részhalmazokra bontsuk. Ennek megfelelően háromféle neuront 
különböztethetünk meg: 


e bemeneti neuronok, melyek típusukban 15 különböznek a többi neurontól (egybemenetű, egykimenetű, 
buffer jellegű neuronok, melyeknek jelfeldolgozó, processzáló feladatuk nincs), bemenetük a hálózat 
bemenete, kimenetük más neuronok meghajtására szolgál, 


e kimeneti neuronok, melyek kimenete a környezet felé továbbítja a kívánt információt, típusukra nézve nem 
feltétlenül különböznek a többi neurontól, 
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e rejtett neuronok (hidden neurons), melyek mind bemeneteikkel, mind kimenetükkel kizárólag más 
neuronokhoz kapcsolódnak. 


A neuronokat sok esetben rétegekbe (layers) szervezzük, ahol egy rétegbe hasonló típusú neuronok tartoznak. 
Az egy rétegbe tartozó neuronokra még az 15 jellemző, hogy kapcsolataik 15 hasonlók. Az azonos rétegbe tartozó 
neuronok mindegyikének bemenetei a teljes hálózat bemenetei, vagy egy másik réteg neuronjainak 
kimeneteihez kapcsolódnak, kimenetei pedig ugyancsak egy másik réteg neuronjainak bemeneteit képezik, vagy 
a teljes hálózat kimeneteit alkotják. Ennek megfelelően beszélhetünk bemeneti rétegről (input layer), rejtett 
réteg(ek)ről (hidden layer(s)) és kimeneti rétegről (output layer). A bemeneti réteg, amely buffer jellegű 
neuronokból épül fel, információfeldolgozást nem végez, feladata csupán a háló bemeneteinek a következő réteg 
bemeneteihez való eljuttatása. Ennek megfelelően egy rétegekbe szervezett háló legalább két réteggel, egy 
bemeneti és egy kimeneti réteggel kell rendelkezzen. E két réteg között elvben tetszőleges számú rejtett réteg 
helyezkedhet el. 


A szakirodalomban a rétegszám definíciója sokszor nem egyértelmű. Egyes szerzők a rendszerint lineáris, 
bemeneti buffer réteget 15 beleszámítják a rétegszámba, mások csak a rejtett- és kimeneti rétegeket, tehát csak 
azokat a rétegeket, melyek információfeldolgozást is végeznek. Így az egyértelműség kedvéért az a szokás 
terjedt el, hogy az aktív, jelfeldolgozást ís végző (processzáló) rétegek számát adják meg a hálózat 
jellemzőjeként. 


A neuronhálókat az egyes neuronok közötti összeköttetési rendszer alapján két fő csoportba sorolhatjuk: 
beszélhetünk előrecsatolt hálózatokról (feedforward networks) és visszacsatolt hálózatokról (recurrent 
networks). Visszacsatoltnak nevezünk egy neurális hálót, ha a topológiáját reprezentáló irányított gráf tartalmaz 
hurkot, egyébként a neurális háló előrecsatolt. Előrecsatolt hálóra mutat példát az 1.7 és az 1.8 (b) ábra, míg egy 
visszacsatolt architektúra az 1.8 (a) ábrán látható. 


1.7. ábra - Egy egy-(processzáló) rétegű hálózat 


ár 





A visszacsatolt hálózatoknál beszélhetünk globális és lokális visszacsatolásról. Globális visszacsatolásnál a 
hálózat kimenetét csatoljuk vissza a bemenetére. A lokális visszacsatolásokat három csoportba sorolhatjuk (1.9 
ábra): 


e elemi visszacsatolásról (recurrent connections) beszélünk, ha egy réteg egy neuronjának kimenete 
közvetlenül egyik saját bemenetére van visszacsatolva, 
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e laterális (lateral connections, intra-layer connections) visszacsatolásoknál, valamely réteg(ek) neuronjainak 
kimenetei ugyanazon réteg neuronjainak bemeneteire kapcsolódnak, de nem értjük ide a neuron önmagára 
való visszacsatolását. 


e a rétegek közötti visszacsatolások (inter-layer connections) több réteget tartalmazó hurkot hoznak létre a 
gráfon. 


1.8. ábra - Teljesen összekötött, visszacsatolt (a), illetve rétegekbe szervezett, 
előrecsatolt (b) topológiájú hálózat 
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A jobb áttekinthetőség kedvéért az 1.9 ábrán a visszacsatolásokon kívül csak néhány további összeköttetést 
jelöltünk. 


A legegyszerűbb, memória nélküli neuronokból (Id. 1.2 ábra) felépített egy processzáló rétegű előrecsatolt 
hálózatnak (1.7 ábra) egy bemeneti buffer rétege és egy feldolgozó rétege van, mely egyben a kimeneti réteg 15. 
A hálózat N bemenettel és M kimenettel (M információfeldolgozást végző neuronnal, processzáló elemmel, PE) 
rendelkezik. Mind a bemeneteket, mind a neuronokat sorszámmal láttuk el. Az 1 ... N sorszámú bemenetek a 
bemeneti réteget adják, a PE:-vel jelölt neuronok a kimeneti réteget, ahol i—1,..., HM. Ehhez kapcsolódik még a 
szokásos konstans értéket biztosító, az ábrán 0 sorszámmal jelölt bemenet. Természetesen itt az 1.2 ábrához 
képest — a több neuron miatt — a processzáló réteg bemeneti súlyait kettős indexeléssel látjuk el, az első index a 
neuronra, míg a második a neuronhoz kapcsolódó bemeneti komponensre utal. 


Az 1.7 ábrán látható hálózat átvitele az (1.2) és az (1.3) összefüggések, (nemlineáris aktivációs függvény esetén 
az (1.4) összefüggés) alapján felírható. Ertelemszerűen a súlyvektor helyét a súlyokból képzett W mátrix veszi 
át, a kimeneten pedig az y vektort kapjuk. Az alábbi összefüggés a nemlineáris aktivációs függvény esetét 
mutatja: 


y—-fls1—ELNW xi (1.5) 


1.9. ábra - Lokális — elemi (a), laterális (b) és rétegek közötti (c) — visszacsatolás 
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(Megjegyezzük, hogy az (1.5) összefüggés a szokásosnál általánosabb kapcsolatot 15 megenged s és y között. A 
legtöbb esetben ugyanis az f(.) leképezés az s vektor komponenserre hat és így állítja elő y komponenseit.) 


EE E E eri ele ázat st sza e E eg E sa ét FE en oz aaa Le aa 7 saláták szt elsos ége össz est a ez ez e e E 


egybemenetű-egykimenetű, előrecsatolt hálózat látható, mindkettő 3 - 3 neuronból áll. A második háló a fentiek 
értelmében egy kétrétegű (két processzáló rétegű) vagy másképpen egy rejtett rétegű hálózat. Az ábrán az 


(E) 
információfeldolgozást végző neuronokat ismét ES" vel jelöltük, ahol a felső index a rétegindex, az alsó pedig 


a rétegen belüli sorszám. Az egyes neuronok kimenetei — a többrétegű esetben — a neuronok jelöléséhez 
hasonlóan ugyancsak két indexet kaptak. A felső a rétegindex, az alsó a rétegen belül a sorszámot adja meg. 
(Hogy a későbbiek során a felső index ne legyen összetéveszthető a hatványkitevővel, a felső indexet minden 
esetben zárójelbe tesszük.) Az ábrán az áttekinthetőség érdekében a súlyokat nem jelöltük, de a bevezetett 
konvenciónak és annak megfelelően, hogy a súlyokat neuronokhoz rendeljük, általánosságban az /-edik réteg i- 


Z 
edik neuronjának a j-edik bemenetéhez kapcsolódó súlyát nt; fogja jelölni. 


A neurális hálók — elsősorban a rétegekbe szervezett memória nélküli hálók — topológiáját nemcsak gráf 
reprezentációval adhatjuk meg, hanem az egyes rétegek közötti összeköttetést mátrixok segítségével 15 
leírhatjuk. 


Előrecsatolt hálóknál (pl. 1.8 (b) ábra) ez értelemszerűen azt jelenti, hogy az 1.5 összefüggéshez hasonlóan az 
egyes rétegek neuronjaihoz tartozó súlyok egy mátrixba foghatók össze, ahol a mátrix egyes sorai az egyes 


neuronok súlyaiból képezett vektorok. W" tehát az 1-edik rétegben lévő neuronok súlyaiból, mint 
sorvektorokból képzett mátrix. Egy többrétegű, előrecsatolt háló egyes rétegei által megvalósított leképezés 
tehát, ha összeköttetések csak a szomszédos rétegekben lévő neuronok között vannak, a következő formában 
adható meg: 


gy. BE f(s HES EGY! 4 öltő (1.6) 
Egy két rejtett réteggel rendelkező hálózat bemeneti-kimeneti leképezése ennek megfelelően: 


— (4 (1) 
y -fÍW EÉW x]) (4) 
Itt W"" illetve W" rendre az első és a második aktív (rejtett) réteg súlyait tartalmazó mátrix, az f(.) függvényt 


komponensenként kell érteni. Az 1.8 (b) ábrán látható hálózatnál we egy 2x2-es mátrix, míg We egy 3 elemű 
vektor: 
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i1 (1 
Wag HI 


1 11 
wwi1] -]vá Hi] 


(29 —f uld lé 21 
WV — wiő kán vi; 


] (1.8) 


A súlyok mátrixos formában történő felírása természetesen visszacsatolt hálóknál 15 lehetséges, hiszen a súlyok 
itt 15 neuronok bemeneteihez kapcsolódnak. A konkrét összeköttetési rendszer szabja meg, hogy az egyes 
neuronok honnan kapnak bemenetet; visszacsatolt hálózatoknál általában mind közvetlen bemenetek, mind 
visszacsatolt kimenetek 15 szerepelnek bemenetként. Visszacsatolt hálóknál természetesen figyelembe kell 
venni, hogy a visszacsatolt hálók dinamikus működést valósítanak meg, és hogy egy neuronon a jeláthaladás 
késleltetéssel jár. Diszkrét idejű hálózatot feltételezve ez azt jelenti, hogy egy visszacsatolt háló kimenete a k- 
adik időpillanatban a bemeneteinek a (£—-1)-edik időpillanatbeli értékeitől függ. Például az 1.8 (a) ábrának 
megfelelő egy neuronrétegből álló visszacsatolt hálózat leképezésének általános formája 


y()—E(Wulk— I) (1.9) 


ahol u a neuronok összes bemenetét tartalmazó vektort jelöli. Az ábrának megfelelő konkrét hálózatnál a 
kimenet skalár, a bemeneti vektor pedig mind közvetlen bemeneti komponensekből, mind visszacsatolt 
kimenetekből áll: 


v(1)-a(k) és u(k)-[d(2.a(d a(z (s (BT 40 


3. A neurális hálózatok alapvető számítási 
képességei, felhasználási területei 


Az előbbiekben láttuk, hogy a neuronhálók a bemeneteik és a kimeneteik között általában valamilyen 
nemlineáris leképezést valósítanak meg. Egy statikus leképezésű elemi neuron ezért, mint elemi (nemlineáris) 
statikus rendszer kezelhető. Azt is láttuk, hogy megfelelő kiegészítésekkel, bővítésekkel az elemi neuron 
dinamikus működésűvé tehető. Egy neuronháló — amely tehát ilyen elemi neuronokból épül föl — úgy kezelhető, 
mint egy statikus vagy dinamikus (nemlineáris) rendszer, amelynek alkalmazhatósága attól függ, hogy milyen 
speciális képességekkel rendelkezik. Fontos kérdés tehát az egyes neuronháló architektúrák számítási 
képességeinek a meghatározása. Ebben a részben röviden ezt a kérdést vizsgáljuk, valamint kitérünk arra 1s, 
hogy ezeknek a képességeknek köszönhetően melyek a neuronhálók legfontosabb alkalmazási területet. 


A neurális hálózatok képességeit és tulajdonságait a használt műveleti elemek tulajdonságai, a hálózat 
topológiája és a hálózat súlyainak értéke, — így közvetve a használt tanulási algoritmus — határozzák meg. A 
neuronhálók talán legfontosabb képessége, hogy megfelelő kialakítás esetén, szinte tetszőleges be-kimeneti 
kapcsolatot, leképezést meg tudnak valósítani, vagyis a szokásos elnevezés szerint ezek a neuronhálók ún. 
univerzális approximátorok. Az univerzális approximátor-képesség teszi lehetővé, hogy a neuronhálókat mint 
univerzális osztályozó és modellező eszközöket tekintsük. Az osztályozó/modellező képesség nagyon 
szerteágazó alkalmazási lehetőségeket biztosít, kiemelt fontosságú, ezért e kérdéssel részletesebben 1s 
foglalkozunk. Ugyanakkor ezek a hálózatok más nézőpontból asszociatív memóriaként viselkednek, ezért 
röviden erre ís ki fogunk térni. Végül megemlítjük, hogy egyes neuronhálók hatékonyan alkalmazhatók 
bizonyos optimalizálási feladatok megoldásánál. 


3.1. A neurális háló, mint approximáló rendszer 


A megfelelő (statikus) bemenet-kimenet leképezés (függvénykapcsolat) előállítása központi feladat a mérnöki 
alkalmazások számos területén, pl. képfeldolgozásban, alakfelismerésben, osztályozási feladatokban, rendszer 
identifikációnál, szabályozástechnikában, jelfeldolgozásban stb. Ezért a neurális hálózatok igen fontos 
tulajdonsága, hogy a hálózatok számos típusa képes minták alapján a keresett leképezés közelítő, sok esetben 
tetszőleges pontossággal közelítő előállítására. Számos matematikai eredmény született a neurális hálók 
függvényapproximációs (valamilyen előírt leképezést közelítő) képességeivel kapcsolatban. Ezek az 
eredmények a terület jelentősége miatt nagymértékben növelték a neurális hálók iránti érdeklődést. 


Kezdetben a neurális hálókat szinte kizárólagosan olyan feladatok megoldására használták, ahol a pillanatnyi 
bemenetre adott válasz nem függött sem az időtől, sem az előző bementi és/vagy kimeneti értékektől, tehát a 
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megoldandó probléma statikus volt. A működés még akkor 1s statikus jellegű volt, mikor a kívánt választ csak 
valamilyen — időben lejátszódó — tranziens után érte el a hálózat, mivel nem a tranziens alakulása, hanem csak a 
végállapot jelenti a hálózat bemenetre adott válaszát. 


A feladatok jelentős része viszont valamilyen dinamikát mutat: vagy maga a vizsgált folyamat (melyet 
optimalizálunk, vagy melynek az eredményeit osztályozzuk, stb.), esetleg a környezet (zaj, stb.) változik az 
időben (idővariáns folyamatok), vagy a folyamat pillanatnyi értéke nem csupán az adott bemeneti jeltől, hanem 
az előzményektől 1s függ. Ilyen feladattal találkozunk akkor 1s, ha egy időben változó értéksorozat valahány 
elmúlt értékének (egy időben változó folyamat régebbi mintavételi értékeinek) ismeretében a következő értéket 
vagy értékeket kell előre jelezni, jósolni (a későbbi mintavételi értékekre becslést adni). Ezeket a feladatokat 
idősor előrejelzési feladatoknak (time series prediction) szokás nevezni, és a legkülönbözőbb alkalmazási 
területeken, pl. komplex ipari rendszerek működésének, gazdasági és pénzügyi folyamatok viselkedésének, 
természeti jelenségek lefolyásának, időbeli alakulásának, stb. előrejelzésénél jelennek meg. 


Természetesen ilyen esetekben a feldolgozó algoritmusnak vagy modellező eljárásnak 15 a megfelelő időfüggést 
kell mutatnia. Ezt neurális hálók alkalmazása esetén legtöbbször úgy érjük el, hogy a statikus feladatok 
megoldására kialakított (rendszerint nemlineáris) neurális hálót kiegészítjük dinamikus (rendszerint lineáris) 
komponensekkel. Több szinten történhet a dinamikus elemek felhasználása, pl. maga a neuron 15 dinamikussá 
tehető, mint ahogy azt az 1.1 illetve 1.6 ábrán bemutattuk. Dinamikus feladatok megoldásánál ugyanakkor 
gyakrabban alkalmaznak olyan megoldást, amikor a tisztán statikus hálót kiegészítik dinamikus 
komponensekkel. Erre számos lehetőségünk van. Ilyen lehetőséget mutat az 1.10 ábra, de az 1.8 (a) ábrán 
bemutatott visszacsatolt háló is egy statikus hálóból megfelelő visszacsatolás alkalmazásával előállított 
dinamikus rendszer. 


Az 1.10 ábrán látható megoldásban a (statikus) neurális hálót bemeneti és kimeneti megcsapolt késleltető 
sorokkal (tapped delay line) egészítettük ki, így az aktuális kimeneti érték az előző be- és kimeneti értékektől 15 
függ. Természetesen használhatunk összetettebb kiegészítő lineáris komponenseket 15, mind a visszacsatoló, 
mind az előrecsatoló ágban. 


Akármilyen módon alakítunk 15 ki dinamikus neurális rendszereket, az alapvető problémát a hálózat tanítása 


jelenti. A tanítás rendszerint statikus esetben 1s lassú, nehézkes, dinamikus esetben pedig még ehhez képest 1s 
sokkal komplikáltabb, lassabb, sőt gyakran súlyos stabilitási problémákkal 15 meg kell küzdenünk. 


1.10. ábra - Késleltető sorokkal dinamikussá tett neurális rendszer 


xi ki 


vik) 


neurális haló 


(statikusi 
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Az approximációs képességhez számos matematikai eredmény kapcsolódik, melyeket fontosságuk miatt külön 
részben, az 1.4 alfejezetben foglalunk össze. A matematikai eredmények a statikus leképezésre vonatkoznak, 
azonban mint láttuk a dinamikus feladatok megoldására képes hálózatok 1s jórészt statikus neuronokon, statikus 
hálókon alapulnak, tehát a statikus leképezésre vonatkozó eredmények adják meg annak 15 a matematikai 
alapját, hogy megfelelő architektúrájú neuronhálókkal dinamikus feladatokat 15 hatékonyan meg tudunk oldant. 


3.2. A neurális hálózat, mint asszociatív memória 


stét ölel a 


meghatározott módon (tanulás, learning ) információt írunk be, s ezt később visszaolvassuk (előhívás, recall ). 
Az általánosan használt írható/olvasható (RAM) memóriáknál az adat kiválasztott címre való beírását 
tekinthetjük tanulásnak, az előhívási algoritmus során pedig a címinformációt használjuk bemeneti jelként, 
melyre válaszként a tárolt adatot kapjuk meg. Ezzel szemben a neurális hálózatokat, mint adattal címezhető 
memóriát (content addressable memory), vagy mint asszociatív memóriát (associative memory) használjuk. 


Adattal címezhető memória esetén a tanulás során a tanítási adathalmaz elemeit kapcsoljuk a hálózat 
bemenetére, s a hálózat autonóm vagy felügyelt módon azonos címhez (azaz a háló kimenetéhez) igyekszik 
hozzárendelni az összetartozó adatokat. Az előhívási fázisban 15 adatokat kapcsolunk a hálózat bemenetére, s a 
visszanyert információt az hordozza, hogy a megtanult címek közül melyiket adja vissza a hálózat. (Pl. ha 
osztályozási feladatot tanítunk, sikeres tanulás eredményeképp az azonos osztályba tartozó bemeneti adatok 
azonos, vagy egymáshoz közeli címeket adnak a kimeneten, míg a különböző osztályba tartozó bemeneti minták 
távoli címeket adnak.) 


Asszociatív memóriaként alkalmazva a neurális hálót összetartozó adatpárokat használunk, s a hálózatot arra 
tanítjuk, hogy az adott bemeneti adathoz a megfelelő kimeneti adatot rendelje hozzá. Az előhívás során adatot 
használunk bemenetként, és válaszként 15 egy — a bemenetihez kapcsolt, asszociált — adatot kapunk. (Pl. itt 
említhetjük a jelfeldolgozási feladatokat, mikor a bemeneti jelhez egy szűrt/módosított kimeneti Jel tartozik. ) 


Az asszociáció két változatát, az autoasszociációt és a heteroasszociációt szokás megkülönböztetni. 
Autoasszociatív (autoassociative) hálóról akkor beszélünk, ha a tanítás során a neurális háló a bemenetére 
kapcsolt jelvektorokat, mintákat tárolja abból a célból, hogy a későbbiek során, ha a háló bemenetére a 
megtanított minták részleges vagy torzított (zajos) változatai kerülnek, a háló az eredeti, teljes, zajmentes mintát 
adja vissza válaszként a kimenetén. Ezek a hálók a bemeneti mintákat önmagukkal asszociálják. Autoasszociatív 
ilyenkor olyan közbenső, közelítő reprezentációt állít elő, melyből maga a háló próbálja visszaállítani az eredeti 
jelet. A heteroasszociatív (heteroassociative) hálóknál a bemeneti vektorokhoz, mintákhoz tetszőleges kimeneti 
vektorok kapcsolhatók. A háló tehát összetartozó párokat kell, hogy eltároljon, és tanítás után egy megadott 
bemenetre a hozzátartozó kimenetet kell válaszként előállítania, vagyis egy bemeneti mintát egy tetszőleges, de 
a bemeneti mintához párosított mintával asszociálja. 


Általánosságban mind a bemeneti, mind a kimeneti minta lehet egy-egy mintaszekvencia is. Az ilyen 
összerendelésekre a dinamikus hálók képesek. A dinamikus hálók tehát mint bemeneti adatszekvenciákhoz 
kimeneti adatszekvenciákat asszociáló asszociatív memóriák 1s értelmezhetők. 


3.3. A neurális háló, mint optimalizáló rendszer 


Az optimalizálás a mérnöki tevékenység egyik alapvető lépése. Optimalizálás során általában valamilyen 
költséget kívánunk minimalizálni, a rendszer struktúrájának, illetve paramétereinek megfelelő megválasztásával. 
Nem feltétlenül klasszikus, pénzben kifejezhető költségre kell gondolnunk, költségként jelentkezhet a szükséges 
számítási kapacitás, a számítási idő, a memória igény, a modellezési hiba, stb. Általában egy 
költségfüggvénynek két fontos jellemzője van, egyrészt minden megoldáshoz egyértelműen hozzárendel egy 
skalár mennyiséget, másrészt ez a skalár mennyiség kifejezi a megoldás — valamilyen szempontból értelmezett 
— jóságát. Egy tipikus példa, ha egy gyártási folyamat során elvégzendő feladatokat akarjuk egy gépcsoporttal 
(melyben a gépek eltérő sebességgel azonos, illetve különböző részműveletek elvégzésére képesek) úgy 
megoldani, hogy a műveletek összes idejét, plusz a várakozási időket minimalizáljuk. Az optimalizálási feladat 
során azt keressük, hogy mely gépekhez mely részműveleteket milyen sorrendben kell hozzárendelnünk. 


Neurális hálózatokat sikerrel alkalmaztak bizonyos optimalizálási feladatok megoldásában is. A megoldás 
menete általában az, hogy egy, a minimalizálni kívánt költséget kifejező skalár függvényt keresünk — a fenti 
példában az összidő lehet ilyen függvény —, ezután olyan hálózatot hozunk létre, melynek paramétereihez 
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egyértelműen hozzárendelhető a költségfüggvény. (Pl. egy-egy neuron megfelel egy-egy részműveletnek, illetve 
gépnek, a részműveletet reprezentáló neuron kimenetét a használt géphez kapcsoló súly értéke pedig az adott 
műveleti idő és várakozási idő összege.) Az optimalizációs feladatokra alkalmas hálók többnyire visszacsatolt 
struktúrájúak, ami azt jelenti, hogy a háló valamely kiinduló állapotból egy tranziens során jut el egy 
végállapotba. Amennyiben a hálózatot úgy tudtuk kialakítani, hogy tetszőleges állapotból indítva, a lejátszódó 
tranziens során a költségfüggvény minden lépésben csökkenjen, akkor a végállapot valamilyen 
költségminimumot reprezentál. 


A neuronhálókkal megoldott optimalizációs feladatokra általában az a jellemző, hogy a kapott megoldás nem 
feltétlenül biztosítja, hogy a globális költségminimumot, tehát az optimumot elérjük. Bonyolult problémák 
esetén azonban sokszor megelégszünk azzal 1s, ha az optimum helyett egy , Jó" megoldást találunk. Különösen 
akkor igaz ez, ha az optimalizálási feladat komplexitása miatt a valódi optimum elérése nem reális, miközben 
egy neuronháló alapú ,Jó" megoldás kis számításigénnyel is elérhető. Tipikusan ilyenek a kombinatorikus 
optimalizálási feladatok, melyek között számos NP-teljes problémát találunk. 


4. A neurális hálózatok approximációs képessége 


Ebben a részben az előrecsatolt, többrétegű hálózatok approximációs képességéhez kapcsolódó néhány 
fontosabb matematikai eredményt ismertetünk. Látni fogjuk, hogy ezek a matematikai tételek elsősorban elvi 
jelentőségűek: egyes előrecsatolt neurális architektúrákhoz kapcsolódóan általános approximációs eredményeket 
fogalmaznak meg, de ezt egzisztencia tételek formájában teszik. Azt mondják ki, hogy bizonyos képességek 
megvalósíthatók előrecsatolt többrétegű neuronhálókkal, de nem adnak támpontot ahhoz, hogy adott konkrét 
feladathoz hogyan konstruálhatunk megfelelő hálót. Fontosságuk a közvetlen gyakorlati felhasználhatóság 
hiánya ellenére vitathatatlan. A mérnöki feladatmegoldáshoz biztos támpontot adnak, hiszen abban biztosak 
lehetünk, hogy adott feladatosztályba tartozó problémákat megfelelő neuronhálóval meg tudunk oldani. A 
matematika ezt a biztos háttértudást adja, a mérnök feladata pedig a konkrét megoldás megtalálása, a megfelelő 
háló létrehozása. 


Az approximációs képességekhez kapcsolódó eredmények bemutatásánál a lehetőségekhez képest az 
érthetőséget részesítjük előnyben a precíz matematikai megfogalmazással szemben. A tételeket és a feltétlenül 
szükséges definíciókat kimondjuk ugyan, de a bizonyításokat sehol sem közöljük, mivel ezek általában nem 
nyújtanak segítséget a mérnöki konstruktív eljárások kidolgozásához, vagy a probléma mélyebb megértéséhez. 


A különböző eredmények egy része két nemlineáris réteget tartalmazó hálókra, míg más eredmények egy 
nemlineáris réteget tartalmazó hálókra vonatkoznak. Az alábbiakban e szerint csoportosítva tárgyaljuk az 
approximációs képességre vonatkozó tételeket. 


4.1. Matematikai leképezések közelítése neurális hálóval, a 
probléma megfogalmazása 


Az eddigiekben láttuk, hogy egy előrecsatolt, rétegekbe szervezett neuronokból felépülő neuronháló a 
bemenetei és a kimenetei között valamilyen (nemlineáris) leképezést valósít meg. E neuronháló-család 
alkalmazási körét az határozza meg, hogy a hálók által megvalósított leképezések milyen jellegű 
függvénykapcsolattal írhatók le. Precízebb megfogalmazásban arra keressük a választ, hogy egy előrecsatolt 
többrétegű hálózat által megvalósítható leképezés milyen függvényosztályba tartozó y-f(x) függvényeket tud 
pontosan előállítani, vagy legalább valamilyen értelemben közelíteni. E hálók számítási képessége a 
függvényapproximáció témakörének speciális szelete. 


4.2. Két nemlineáris réteget használó approximációs hálózatok 


1900-ban a híres német matematikus, David Hilbert (1862-1943) 23 érdekes matematikai problémát fogalmazott 
meg, melyek megoldása véleménye szerint a XX. század matematikusainak fontos feladata lesz. A felsorolt 
problémák között a 13. volt az a sejtés, melynek eredeti alakja mérnöki szemmel nézve meglehetősen 
érdektelennek tűnik [Lor761]: 


"Bizonyítsuk be, hogy az x"tax"tbx"tcxt1-—0 hetedfokú egyenlet nem oldható meg pusztán kétváltozós 
függvények segítségével!" 


Hilbert 13. problémájának más matematikusok által adott átfogalmazása már számunkra 15 több érdekességet 
mutat: 
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"Mutassuk meg, hogy van olyan háromváltozós folytonos függvény, mely nem írható fel véges számú 
kétváltozós folytonos függvény segítségével!" 


Ez a megfogalmazás ugyanis számunkra azt jelenti, hogy vannak olyan (nemlineáris) hárombemenetű 
rendszerek, melyek nem dekomponálhatók egy- vagy kétbemenetű rendszerek segítségével. Mivel a bonyolult 
problémák mérnöki megközelítése igen gyakran az egyszerűbb rendszerekre való dekompozíció, ha Hilbert 
sejtése igaznak bizonyul, akkor ezen rendszerek megvalósíthatósága várhatóan igen súlyos nehézségekbe 
ütközik. 


Itt a kétváltozós függvényeket részint szuperpozícióban használhatjuk, illetve megengedett a függvény- 


függvénye struktúra használata 15. Például a dl: és a fel! kétváltozós és a Wi(.),wo(.).w:(.),w(.) egyváltozós 
függvények felhasználásával a háromváltozós f függvénynek ebben az értelemben legális felírása az alábbi: 


f xyz (valo). 4200) tá log toy Ez) 111) 


A fenti összefüggés tulajdonképpen egy neurális háló struktúrával megvalósítható leképezést takar (Id. 1.11 
ábra), ahol a bemeneten használt lineáris buffer neuronok mellett összegző és kétbemenetű nemlineáris 
neuronokat használunk, a neuronok aktivációs függvényei pedig rendre az összefüggésben használt egyváltozós 
függvények. 


1.11. ábra - Két nemlineáris aktivációs függvényű réteget alkalmazó háló 


AX 
— B 





A helyzet a neurális hálókkal való approximáció szempontjából akkor vált igazán érdekessé, mikor 57 évvel 
később Andrej Kolmogorov (1903-1987) megcáfolta a Hilbert sejtést, és bebizonyította, hogy nem csupán 
minden háromváltozós függvény, hanem tetszőleges N-változós folytonos függvény felírható csupán 
egyváltozós függvények és az összeadás segítségével. (Érdekességként megemlítjük, hogy Kolmogorov és 
Vladimir Arnold versenyeztek egymással Hilbert 13. problémájának megoldásában, egyre újabb és újabb 
eredményeket értek el az 50-es évek során, míg 1957-ben Kolmogorov bebizonyította az eredeti Hilbert sejtés 
cáfolatán messze túlmutató reprezentációs tételét. ) 


1.1 tétel [Kol57] 


Minden N22 egész esetén található N(2N-1) olyan folytonos, monoton növekvő, egyváltozós, az [-[0,1] 


intervallumon értelmezett vag 


f:1-04] 0 E függvény az alábbi alakban előállítható 


függvény, melyek segítségével tetszőleges N változós, valós, folytonos 
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471 Fel 


2-1 NT 
Fay é, px ap) 
(1.12) 


Az összefüggésben felhasznált d, [.) g7l,....2N7-1 egyváltozós függvények különböző f-ek esetén különbözőek, 


de a "11 [/ p-l,.... N; g7-1,....2N3-1 egyváltozós függvények csak N értékétől függenek (minden f-re közösek). A 
fenti összefüggéssel megadott függvénykapcsolat egy olyan két rejtett rétegű neuronháló leképezésének 1s 


megfeleltethető, ahol a vga [2] kapcsolatok adják meg az első rejtett rétegbeli neuronok leképzéseit, az 


NT 
y,7 él pxZ a) 
F-l 


(1.13) 


változók pedig a második rejtett réteg kimenetet. Ezekre a rejtett rétegbeli változókra hat a kimeneti réteg, mely 


az 74 függvényértékek összegét határozza meg. A Kolmogorov-féle reprezentációs összefüggés tehát egy 
speciális, két rejtett rétegű háló struktúrának felel meg. Mindkét rejtett rétegbeli neuronok nemlineáris neuronok 


vga (d illetve a d L. transzfer függvényekkel, míg a kimeneti réteg egy egyszerű összegző, itt tehát nincs 
transzfer függvény. 


Míg a Kolmogorov tétel rendkívül ígéretes a neurális háló típusú eszközökkel való approximáció 
szempontjából, a valós mérnöki feladatok megoldására nem használható közvetlenül. Ugyanis a tétel 


É 


bizonyítása nem konstruktív, tehát adott N és f esetén sem a ké függvényrendszer, sem a "? függvényrendszer 


előállítására nem ad módszert. 


A Kolmogorov tételt az elmúlt évtizedek során többen továbbfejlesztették. Ilyen pl. a David Sprecher által adott 
finomított tétel. A továbblépés abban áll, hogy a Kolmogorov tételben használt függvényrendszerek helyett 
csupán két nemlineáris függvény segítségével állítja elő az Ismeretlen leképezést. A két függvényt többször 15 
fel kell használjuk a pontos előállításhoz. 


1.2 tétel [SpróS] 


Létezik olyan monoton növekvő, valós w(x): [0,11e[0,1] függvény, mely csak N-től (// £ 2 ) függ, és található 


hozzá e - 0 úgy, hogy minden folytonos, valós EE [DET függvény felírható az alábbi formában: 
2471 AN 

T0- 3 624 vlzytae) 
gi Aze , (1.14) 


Ü 


ahol a "§ függvények valós, folytonos függvények, míg a ú értékek alkalmas konstansok. 


A Sprecher által kimondott tétel egy olyan — szintén két rejtett réteget tartalmazó — neurális hálózat irányába 
mutat, amelyben az első rejtett réteg neuronjainak aktivációs függvénye w (tehát ez már semmilyen formában 


Ü 


nem függ a reprezentálandó függvénytől), míg a második réteg neuronjainál a "§ aktivációs függvényeket 
használjuk. A fenti eredményekre alapozva ki 15 mondták a 3. fejezetben részletesen tárgyalásra kerülő 
többrétegű perceptron hálókra vonatkozó tételt. 


1.3 tétel [Hec87] 


Minden f(x: [DA] 08 négyzetesen integrálható el) függvény átlagos négyzetes értelemben tetszőleges 
pontossággal közelíthető legfeljebb két feldolgozó réteget, és a neuronokban szigmoid jellegű nemlinearitást 
alkalmazó neurális hálózat segítségével. 


4.3. Egy nemlineáris réteget használó approximációs hálózatok 


A fenti tétel, melyet Robert Hecht-Nielsen fogalmazott és bizonyított be, két feldolgozó réteget alkalmazó 
hálóra vonatkozik. A következő tétel azonban ezen gyengíteni tudott, hiszen azt állítja, hogy egy aktív réteg 15 
elegendő ahhoz, hogy egy folytonos függvényt tetszőleges pontossággal közelíteni tudjunk. 
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1.4 tétel [Fun89] 


Legyen ge(x) nemkonstans, korlátos, monoton növekvő folytonos függvény. Legyen továbbá A egy kompakt 


(korlátos és zárt) részhalmaza E" -nek, és legyen J 7gersa 7y) egy valós értékű folytonos függvény A-n. Ekkor 


tetszőleges 5? 0 esetére létezik egy olyan M egész szám, és léteznek "i "7 L.A 


j-l, ..., N konstansok, hogy: 


, valamint ?, 1—l, ..., M, 


Jel 


Ni Kei ar 
Fa szgaz esel wyzl, m—-] 
is. (1.15) 
melyre: 


tn am Kös ögaszákai ez új (1.16) 


Vegyük észre, hogy a Tatsushi Funahashi által megfogalmazott 1.4 tétel nemcsak azt állítja, hogy az (1.16) 
összefüggés értelmében vett approximációs képességhez egy rejtett réteg elegendő, hanem azt 1s, hogy ezt a 
képességet lineáris kimeneti réteggel biztosíthatjuk. 


Különösen fontosnak tűnik az utóbbi időben az egy nemlineáris réteggel közelítő hálózatok kutatásának egy 
másik iránya. A nemlinearitás ezekben a közelítésekben nem az eddigiekben tárgyalt folytonos, monoton, 
telítődő jellegű függvények közül kerül ki, hanem tipikusan nem monoton, esetleg nem is folytonos 
függvényeket alkalmazunk. Érdekes, hogy szükséges és elégséges feltételt tudtak kimondani az alkalmazott 
nemlinearitásra, az alábbi tétel szerint. 


1.5 tétel [Les93] 


Tetszőleges folytonos Vál függvényt akkor és csak akkor tudunk tetszőleges pontossággal közelíteni 
lokálisan korlátos aktivációs függvényt alkalmazó neuronokból felépített, egy nemlineáris réteget tartalmazó 
neurális hálóval, ha az alkalmazott aktivációs függvény nem polinom. 


Az 1.5 tétel az aktivációs függvény folytonosságát sem tételezi fel, csupán annyi megkötést tesz, hogy a 
szakadási helyek nullmértékű halmazt kell alkossanak. 


A Funahashi által a perceptron típusú hálózatokra megfogalmazott tétel igen fontos. Hasonló eredményt mások 
Is megfogalmaztak (többek között George Cybenko, [Cyb89], Sean Carroll és Bradley Dickinson [Car89], 
Takahashi [Tak93]). E tételek részben abban térnek el egymástól, hogy az approximációt milyen értelemben 
fogalmazzák meg, részben a bizonyítás matematikai részletei mások. 


Az eddigiekben olyan approximációs tételeket ismertettünk, melyek valós számok közötti leképezést 


megvalósító hálókra vonatkoztak, tehát ahol a háló ae aRts vagy b öz típusú leképezést valósít meg. A 
feladatok egy részében (ezek az osztályozási feladatok) azonban a kimenet véges számú lehetséges diszkrét 
érték közül vehet csak fel értéket. 


Cybenko eredménye [Cyb89] kiterjeszthető osztályozós típusú leképezésekre 15. Ekkor a háló által megvalósított 


j L 
leképezés: f:ACR 112... ki] , ÉS 


f(x17- $ akkor és csak akkor, ha "88; (1.17) 


ahol A;, J-1,2,...,k az A tartomány diszjunkt részhalmazatt jelöli, vagyis d Ög SSE 

ha izj. Ez az eredmény azt mondja ki, hogy egy egy rejtett réteggel és szigmoid típusú nemlinearitással dolgozó 
háló nemcsak univerzális approximátor, hanem univerzális osztályozó 1s. Ezt az eredményt számos kétosztályos 
osztályozási feladat megoldásával kísérletileg igazolta William Huang és Richard Lippman [Hua88]. 


Végezetül a neurális hálózatok egyik, egyre jobban terjedő változatára mutatunk approximációs tételt. A 3. 
fejezetben részletesen tárgyaljuk az RBF (radial basis function) hálózatokat. Ezek tipikusan egy nemlineáris 
rejtett réteget tartalmaznak, a neuronok aktivációs függvényének jellegzetessége pedig az N-elemű bemeneti 
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vektorok terében mutatott körszimmetria, melyre neve is utal. (radial - sugaras, ui. a neuronra jellemző 
középpont paramétertől azonos távolságra — egy r sugarú hipergömbön — elhelyezkedő bemeneti vektorok 
között nem tesz különbséget a neuron.) 


1.6 tétel [Par91] 


Legyen a w:RVGE aktivációs függvény a 5e64es -ben integrálható, folytonos és nem azonosan nulla 
függvény, mely körszimmetriát mutat az N-elemű bemeneti vektorok halmazán, az euklideszi távolságra nézve. 


Ekkor bármely ee függvény tetszőleges pontossággal közelíthető 


e-egil 


fix jmv[esl je 


v . r f sé y f yr 
15cE , CO; ÉS w; 1-1 , 2, ..., M a hálózatra jellemző valós paraméterek. 


alakban, aho 
A fentiekben tárgyalt, alapvetően approximációelméleti eredmények olyan modellek irányába mutatnak, melyek 
struktúrája az 1.2.3 alfejezetben felvázolt előrecsatolt neurális háló. Az eredmények egyik része az 1.3 ábrán 
látható rendkívül elterjedten használt telítődő jellegű aktivációs függvények használatát sugallja, míg másik 
része az 1.4 ábrán látható bázisfüggvények használatának irányába mutat. 


Az utóbbi években jelentős matematikai kutatások kezdődtek, melyek a fenti eredmények gyakorlati 
alkalmazhatóságára irányulnak. A kutatások egyrészt az adott pontosságú közelítéshez szükséges neuronszám 
meghatározását, vagy legalább egy felső korlát felállítását célozzák. Ezek az eredmények azonban már általában 
nemcsak egy általános neuronháló architektúrát tételeznek fel, hanem kapcsolatot keresnek a háló 
approximációs hibája, a háló mérete, a tanítópontok száma és a megoldandó probléma bonyolultsága között 1s; 
tehát már azzal a kérdéssel 15 foglalkoznak, hogy adott képességű háló hogyan konstruálható, és azzal 15, hogy 
mennyiben hat a háló képességeire az, hogy véges számú tanítópont felhasználásával konstruáljuk a hálókat. 
Ezek a kérdések az eddig tárgyaltakhoz hasonló fontosságúak. A legfontosabb eredményeket a következő, a 
tanulással foglalkozó fejezetben foglaljuk össze, illetve néhány eredményt az egyes háló architektúrákat tárgyaló 
3. fejezetben mutatunk be. 


Feladatok 


1.1 Rajzoljon fel egy FIR/IIR neuront (ld. 1.6 ábra) részletesen felrajzolva a dinamikus hálózatokat! A neuron 
nemlineáris függvénye legyen egyváltozós (M-1), a bemenetek száma legyen N-2. A neuron mindegyik 
bemenetén egy-egy két tároló elemet tartalmazó FIR szűrővel, kimenetén pedig egy mind előrevezető, mind 
visszacsatoló ágában három-három tároló elemet tartalmazó általános IIR szűrővel rendelkezzen! Hány 
időegységgel késleltetve jelennek meg a bemeneti változások a kimeneten? 


1.2 Rajzoljon fel egy FIR/IIR neuront (ld. 1.6 ábra), részletesen felrajzolva a dinamikus hálózatokat. A neuron 
nemlineáris függvénye legyen egyváltozós (M-1), a bemenetek száma legyen N-2. Mutassa meg, hogy a 


bemeneteken megvalósított FIR szűrő hogyan transzformálható át az összegző kimenetére! 


1.3 Az alábbi aktivációs függvényeket használó neuronok közül, mely(ek) segítségével lehet univerzális 
approximációs hálózatot építeni (Id. 1.4 — 1.6 tételek)? 


vi ú§ sag (-et 
gl) — . ga(z) - ző. . §5(7) — sin(a), (-m2zx en), 49; váli úi ek 2 
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A neurális hálózatok egyik legfőbb jellemzője az adaptációs, tanulási képesség. Az adaptáció és a tanulás olyan 
fogalmak, amelyek alapjában az élő szervezetek képességeit jellemzik; azt a képességüket, hogy viselkedésüket 
a környezetből nyert ismeretek, tapasztalatok felhasználásával módosítani, javítani tudják. 


A tanulás egzakt definiálása meglehetősen nehéz, hiszen tanulásnak nevezhető az ismeretek, tapasztalatok 
egyszerű memorizálása, de tanulásnak tekinthető egy, a tapasztalatok alapján kialakított teljes tudományos 
elmélet létrehozása 1s. 


Az élő szervezetek tanulásán túl — annak analógiájára — beszélhetünk gépi tanulásról is, illetve olyan gépekről 
is, melyek tanulásra képesek. A gépi tanulás során egy gép — a tanuló rendszer — a környezetéből nyert 
ismeretek alapján Javítja a teljesítőképességét. A tanuló gépek konstrukciója valójában olyan algoritmusok 
kifejlesztését jelenti, melyek segítségével ez a teljesítőképesség-javítás automatikusan történik meg [M1it97], 
[RusOS]. 


Az élő szervezetek tanulásához hasonlóan a gépi tanulás 15 nagyon sokféle lehet. Neurális hálóknál a minták 
alapján történő tanulás a jellemző, amikor az általában nagymennyiségű adatból akarunk megfelelő ismereteket 
kinyerni, és ezzel egy rendszer viselkedését módosítani. 


A viselkedés módosítása általában arra irányul, hogy a rendszer adott bemenetekre előzetesen megadott ún. 
kívánt válaszokat adjon, de irányulhat arra 15, hogy csupán a bemenetek ismeretében — tehát a kívánt válaszok 
ismerete nélkül — képes legyen a rendszer a bemenetekben valamilyen szabályosságot, hasonlóságot vagy 
különbözőséget feltárni. Van olyan eset 1s, amikor a kívánt választ pontosan ugyan nem tudjuk, de arról kapunk 
információt, hogy a rendszer Jó vagy rossz választ adott-e. 


A tanulási képesség lehetővé teheti azt ís, hogy egy eddig megfelelő viselkedésű rendszer a változó 
körülményekhez való alkalmazkodás céljából módosítsa a viselkedését, adaptálódjon a változó körülményekhez. 
Az adaptív, tanuló rendszerek alapvető jellemzője tehát, hogy nem rögzített képességekkel rendelkeznek, 
amelyek egy adott feladat ellátására teszik őket alkalmassá, hanem képességeiket fejleszteni tudják, továbbá 
alkalmazkodni tudnak a változó körülményekhez, környezethez. 


Neurális hálózatokban döntően a tanulás alábbi főbb formáival találkozhatunk: 
e tanulás tanítóval, ellenőrzött, vagy felügyelt tanulás, 

e tanulás tanító nélkül, nemellenőrzött vagy felügyelet nélküli tanulás, 

e analitikus tanulás. 


Meg kell említenünk, hogy az elmúlt néhány évben intenzív kutatás tárgya lett az ún. félig ellenőrzött tanulás 
(semi-supervised learning) [Cha06]. Ennek sajátossága, hogy a felhasználható adatainknak csak egy része 
biztosítja az ellenőrzött tanulás lehetőségét, míg további adatoknál az ellenőrzött tanításhoz szükséges minden 
ismeret nem áll rendelkezésre. A félig ellenőrzött tanulás lehetővé teszi, hogy ez utóbbi adatok se vesszenek 
kárba, a tanuló rendszer konstrukciójához valamilyen módon az általuk szolgáltatott ismeretek 1s felhasználásra 
kerüljenek. 


Ellenőrzött tanulásnál (supervised learning) a hálózat összetartozó be- és kimeneti értékei, tanító mintapont 
párok állnak rendelkezésre. A tanítás ezeken az ismert összerendelt mintapárokon alapul. A háló feladata, hogy 
megtanulja a mintapont párok által reprezentált bemenet-kimenet leképezést. Mivel ismertek a kívánt válaszok 
(a bemenetekhez tartozó kimenetek), a hálózat tényleges válasza minden esetben közvetlenül összehasonlítható 
a kívánt válasszal. Az összehasonlítás eredménye — a tényleges és a kívánt válasz különbsége — felhasználható a 
hálózat olyan módosítására, hogy a tényleges válaszok a kívánt válaszokkal minél inkább megegyezzenek, és a 
hálózat tényleges viselkedése és a kívánt viselkedés közötti eltérés csökkenjen. Az ellenőrzött tanulás általában 
iteratív eljárással, a környezetből származó ismeret fokozatos felhasználásával, a tanító mintapontok egyenkénti, 
esetenként többszöri, ismételt felhasználásával történik. Az ellenőrzött tanulásnak ezt a változatát tanítóval 
történő tanulásnak (learning with a teacher) 15 szokás nevezni. 


A tanítóval történő tanításnál feltételezzük, hogy adott bemenetekhez tartozó kívánt válaszok korrekt értékei 
rendelkezésünkre állnak. Számos esetben nem rendelkezünk ezen információval, mindössze annyit tudunk, hogy 
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adott bemenetekre a hálózat tényleges válasza helyes vagy hibás; tehát a környezetből csak egy bitnyi 
visszacsatolt információ áll rendelkezésünkre. Ezen információ a tanuló eljárás során csak arra elegendő, hogy 
eldöntsük: szükség van-e a hálózat módosítására vagy sem, de a módosítás mértékének meghatározására már 
nem elegendő. Az ellenőrzött tanulásnak ezt a fajtáját megerősítéses tanulásnak (reinforcement learning) 
nevezzük. A megerősítéses tanulásnál a visszajelzés tehát csak, mint egy általános kritika jelentkezik, ezért az 
ilyen tanuló eljárásokat szokás kritikussal történő tanításnak 15 nevezni (learning with a critic). A megerősítéses 
tanulás jól alkalmazható azon esetekben, ha a hálózat egy adott bemenetre nem csupán egy jó választ adhat 
[Her91]. 


Előfordulhat olyan eset 15, amikor a környezet sztochasztikus jellege miatt adott bemenetre kapott válasznál csak 
a megerősítés valószínűségét tudjuk megadni. Ez a valószínűség azonban minden be-kimeneti párra rögzített. 
Ilyen jellegű feladattal találkozunk többek között gazdasági rendszerek modellezésénél és egyszerű játékoknál. 
A legáltalánosabb esetben mind a környezet — tehát a tanuló rendszer válaszát értékelő visszajelzés —, mind a 
rendszer bemenetei függnek a rendszer korábbi bemenetettől. 


Nemellenőrzött tanulásnál (unsupervised learning) nem állnak rendelkezésünkre adott bemenetekhez tartozó 
kívánt válaszok. A hálózatnak a bemenetek és a kimenetek alapján kell valamilyen viselkedést kialakítania; a 
környezetből azonban nincs semmiféle visszajelzés, ami a hálózat viselkedésének helyességére utalna. A 
nemellenőrzött tanulású hálózatoknak azt kell felderíteniük, hogy van-e a hálózat bemenetére kerülő adatokban, 
jelekben valami hasonlóság, van-e az adatok között korreláció, kialakíthatók-e a bemeneti adatok között 
kategóriák, csoportok. Itt tehát a háló által megvalósítandó leképezés pontosan nem definiálható. Ennek ellenére 
a hálózat képes önmaga módosítására, hogy a kategorizálás egyre sikeresebb legyen. E képességük miatt ezen 
hálózatokat szokás önszervező hálózatoknak (selforganizing networks) 15 nevezni. 


Általában a nemellenőrzött tanulásra is az iteratív jelleg a jellemző. 


Analitikus tanulásnál a megfelelő viselkedést biztosító hálózat kialakítása szintén a mintapontok alapján, de 
nem az azokban megtestesülő ismeretek fokozatos felhasználásával, hanem közvetlen számítások útján, 
matematikai összefüggések kiértékelésével, analitikus módszerekkel történik. Analitikus tanulásnál az ismétlés, 
mint a tanuló eljárások egyik fontos eleme hiányzik. Valójában ebben az esetben olyan értelemben nincs 15 szó 
tanulásról, hogy kis lépésekben fokozatosan növeljük egy rendszer "tudását". Abban az értelemben azonban 
most 1s adatokból történő tanulásról beszélhetünk, hogy a környezetből származó információ általában Itt 15 
tanító minták formájában áll rendelkezésünkre. 


Amikor analitikus tanulásról beszélünk, akkor nem az információ jellege, hanem sokkal inkább az információ 
felhasználási módja alapján kategorizáljuk a tanuló eljárást. Így analitikus tanulás lehetséges mind ellenőrzött, 
mind nemellenőrzött tanulásnál, de vannak olyan analitikus tanulású hálózatok, melyek sem az ellenőrzött, sem 
a nemellenőrzött tanulású hálók közé nem sorolhatók be. 


Ha a hálóarchitektúrák oldaláról vizsgáljuk a kérdést, akkor 15 azt látjuk, hogy egyes neuronháló típusoknál a 
hálók konstrukciója alapvetően analitikus úton történik, más típusoknál mind analitikus, mind iteratív tanulás 
lehetséges, és vannak olyan hálóarchitektúrák, melyek kialakítása analitikus módszerekkel nem lehetséges. A 
súlymeghatározás analitikus módszereit a konkrét hálózatoknál fogjuk bemutatni. 


A fejezet célja, hogy összefoglalja a mintákból történő tanulással kapcsolatos legfontosabb alapfogalmakat, a 
neurális hálózatoknál alkalmazott főbb tanulási eljárásoknál felmerülő fontosabb elvi kérdéseket és a tanuló 
eljárások általános jellemzőit. Nem foglalkozik azonban az egyes konkrét hálózatok tanításával, ezeket — 
alkalmazva a tanulásra vonatkozó általános ismereteket — az egyes hálózatokat bemutató későbbi fejezetek 
tárgyalják. 


A 2.1 alfejezet az ellenőrzött tanítási eljárásokkal foglalkozik, ezen belül 1s a tanítóval történő tanulással — mint 
a neuronhálóknál alkalmazott egyik legfontosabb tanulási eljárással. A megerősítéses tanulás — bár számos 
alkalmazásban fontos szerepet tölt be — neuronhálóknál közvetlenül ritkán kerül alkalmazásra, ezért a 
megerősítéses tanulással részletesen nem foglalkozunk, csak a megfelelő irodalomra utalunk pl. [Nar$89bj], 
[Sut98]. 


A 2.2 alfejezet a nemellenőrzött tanulás néhány fontos kérdéséről szól röviden. A 2.3 alfejezet a véges számú 
tanítómintából történő tanulás általános kérdéseivel foglalkozik a statisztikus tanuláselmélet alapjainak 
bemutatásán keresztül. A 2.4 alfejezet azt mutatja be, hogy az adatokból való tanulás és a statisztikai becslések 
(parméterbecslés) rokon területek. Az egyes tanuló eljárások statisztikai becslési eljárásként 15 értelmezhetők. A 
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két terület közötti kapcsolat bemutatása lehetővé teszi, hogy a statisztikai becslések terén megszületett egyes 
általános eredmények a tanuló eljárások elemzésénél 1s felhasználhatók legyenek. 


A fejezet utolsó részében a neuronhálók tanításánál fontos szerepet betöltő szélsőérték-kereső eljárásokkal 
foglalkozunk részletesebben. A felügyelt tanítás mindig visszavezethető szélsőérték-keresési feladatra, de 
megmutatható — és erre a megfelelő későbbi fejezetek ki 15 térnek —, hogy a nemellenőrzött tanítási eljárások is 
megfogalmazhatók szélsőérték-kereső feladatként. 


1. Ellenőrzött tanulás (tanítóval történő tanítás) 


A tanítóval történő tanításnál a tanítandó rendszer változtatása összetartozó be- és kimeneti tanító mintapárok 
felhasználásával történik. Ilyenkor a tanuló eljárás célja az, hogy a tanítandó rendszer felépítését (struktúráját 
és/vagy paramétereit) olyan módon válasszuk meg vagy alakítsuk ki, hogy a megtanított rendszer — amely 
valamely vizsgált rendszer modelljeként jelenik meg — működése minél inkább feleljen meg a vizsgált rendszer 
működésének. Úgy is fogalmazhatunk, hogy modell-illesztési feladatot kell megoldanunk. 


A modell-illesztés feladata minden olyan esetben megjelenik, amikor "identifikálni", egyszerűbben kifejezve 
"meghatározni", "azonosítani", "mérni" szeretnénk valamit, vagy amikor "követni" szeretnénk folyamatokat. De 
lényegében ugyanerről van szó akkor 15, amikor bonyolult, nehezen kezelhető jelenségekhez egyszerűbb — 
könnyebben kezelhető —, ugyanakkor főbb vonásaiban mégis hasonlóan viselkedő "modelleket" hozunk létre, 


illetőleg amikor a klasszikus regresszió-számítás módszerét alkalmazzuk. 


A modell-illesztési feladat általánosan a következő formában fogalmazható meg: Adott egy rendszer, mely a 


bemenetei és a kimenetei között valamilyen gl.) leképezést valósít meg. A leképezés nem ismert, viszont 
Z 


Z 
rendelkezésünkre áll egy Ea E edi] aa mintapont-készlet, melynél az összetartozó bemeneti és kimeneti 
értékek közötti kapcsolatot az ismeretlen leképezés adja meg. A mintakészlet elemei, a mintapontok általában 
többdimenziós vektorok, melyek a mintatérben helyezkednek el. 


TF Úxw 


A tanulási feladat az, hogy egy ; paraméteres függvényhalmazból, — ahol wc"? a függvényhalmaz 


paramétere és W a paramétertér — válasszunk egy függvényt olyan módon, hogy adott ": bemenetre a 


kiválasztott függvény - Ún) válasza valamilyen értelemben a lehető legjobban közelítse az ismeretlen 
leképezés azonos bemenetre adott d; válaszát. A d; válaszokat kívánt válaszoknak (desired response) nevezzük. 
A függvényhalmaz szabad paramétereit tartalmazó w vektort a W paramétertér megfelelő pontjaként a 
rendelkezésre álló mintapontok alapján kell megválasztani vagy meghatározni. 


Z 
Az Vr.) mintapont-készletet tanító készletnek vagy tanító mintakészletnek (training set) nevezzük, azt az 


eljárást pedig, melynek során a tanító mintakészlet felhasználásával az Jiw) leképezést kialakítjuk, 
tanulásnak (learning). A tanuló eljárás célja tehát egy valamilyen értelemben optimális w"? paraméter 
meghatározása a tanító mintakészlet alapján. 


Amennyiben az Fv) leképezést egy neuronháló valósítja meg, a függvénykészlet megválasztása a 
neuronháló típusának és architektúrájának megválasztásával történik, míg a tanítás valójában a w 
paramétervektor meghatározását, becslését szolgálja. Ebben az értelemben a tanulás egy paraméterbecslési 
eljárás. Nyilvánvaló tehát, hogy a tanuló eljárások és a statisztikai becslések között szoros kapcsolat található. 
Erről a kapcsolatról részletesebben a 2.4 alfejezetben szólunk. 


Osztályozás és regresszió 


Az általános modell-illesztési feladatosztályon belül több feladatcsoportot különböztethetünk meg. Ezek közül a 
neuronhálókhoz kapcsolódóan az osztályozási és a regressziós feladatcsoportokkal foglalkozunk. 


Az osztályozási feladatoknál a rendszer által képviselt leképezést az 


(md) (x.do) (md) e" xítb pp 
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tanító mintapontok alapján kell közelítenünk, míg a regressziós feladatnál a rendelkezésre álló összerendelt 
tanító mintapárok: 


ezét hess Vég ETRK TR zs 


d. 


egy, általában zajos leképezés "7 gln1-ta eredményeképpen nyerhetők. Itt gl.) egy determinisztikus 


függvény, a regressziós függvény, " pedig a kimeneti megfigyelési zaj. A (2.1) összefüggés kétosztályos 
osztályozási feladatot tételez fel, de nyilvánvalóan tetszőleges (véges) számú osztályra is kiterjeszthető. A 
különbség mindössze annyi, hogy a válasz nemcsak két érték közül kerülhet ki, hanem a véges számú lehetséges 
értékek közül bármelyik lehet. A (2.2) által definiált mintapontokról feltételeztük, hogy egy több-bemenetű — 
egykimenetű leképezésből származnak. Az egydimenziós kimenet feltételezése nem korlátozza a feladat 
általános megfogalmazását. A többdimenziós kimenetre való kiterjesztés természetes módon lehetséges. 


A megfigyelési zajról általában feltételezzük, hogy várható értéke bármely x mellett nulla, továbbá, hogy a 
megfigyelési zaj és a regressziós függvény korrelálatlanok egymással, vagyis 


Eh (7 Fej E , (2.3) 
illetve 
Einglxj-0 24 


Nulla várható értékű, korrelálatlan zaj mellett a regressziós feladat valójában egy feltételes várhatóérték-képzési 


feladat, vagyis g(x) a megfigyelés feltételes várhatóértéke 
gíxj- Eg (d Fe) . (2.5) 


Minősítés, hibamértékek 


A legjobb approximációt biztosító függvény meghatározásához az approximáció minőségét jellemző mértékre 
van szükség. Ez a mérték egy hibafüggvény (error function) felhasználásával határozható meg, amit 
költségfüggvénynek (cost function) vagy veszteségfüggvénynek (loss function) 15 szokás nevezni. A 


Eld,f(x.w)) 


veszteségfüggvény — amit a továbbiakban -vel fogunk jelölni — mind a háló válaszának, FW] s 


nek, mind a rendelkezésre álló d (x) kívánt válasznak a függvénye: leggyakrabban az approximáció elxw) 


hibájának a függvénye, ahol a hibát a kívánt válasz és a tényleges válasz különbségeként definiálhatjuk: 
elx,w)] cd [a] — Fixw)] . (2.6) 


A tanuló rendszer konstrukciója — akár osztályozási, akár regressziós probléma megoldására irányul — véges 
számú tanító mintapont alapján történik. A tanuló eljárás célja azonban általában nem az, hogy a véges számú 
tanítópontban kapjunk megfelelő válaszokat, hanem egy olyan leképezés megtanulása, amely a tanítópontok 
által reprezentált bemenet-kimenet kapcsolatot is megadja. A tanuló rendszer tehát általánosítóképességgel 
(generalization capability) kell rendelkezzen: olyan esetekben is ,Jó" választ kell adjon, mely esetek nem 
szerepelnek a tanítópontok között. A tanulás nehézségét épp ez adja: véges számú tanítópont alapján kell egy 
problémáról , általános tudást" szerezni. 


Az adatokból történő tanulás egy rosszul definiált feladat. Példaképp nézzünk egy függvényapproximációs 
problémát. Mint a 2.1. ábrán látható, a pontokkal jelölt tanítópontokra több — akár végtelen sok — különböző 
függvény illeszthető, melyek mindegyikére igaz lehet, hogy átmegy a megadott pontokon, vagy azokat 
tetszőleges pontossággal közelíti, miközben a tanítópontoktól eltérő pontokban az egyes függvények viselkedése 
nagymértékben különbözhet. 


2.1. ábra - A tanítópontok alapján történő függvényapproximáció egy rosszul definiált 
feladat: a tanítópontok nem határozzák meg egyértelműen a bemenet és a kimenet 
közötti függvénykapcsolatot 
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A tanuló rendszer minősítésére ezért olyan mértékre van szükségünk, amely nem csupán azt mondja meg, hogy 
a tanuló rendszer a tanító  mintapontokat milyen pontosan tanulta meg, hanem a rendszer 
általánosítóképességéről 15 mond valamit. 


A veszteségfüggvény adott bemenet mellett minősíti a tanuló rendszert. A minősítésre azonban alkalmasabb 
mérték, ha a veszteség összes pontra vonatkozó átlagos értékét, a veszteség várható értékét, az ún. kockázatot 
(risk) határozzuk meg, ahol a kockázat a veszteségfüggvényhez rendelt számérték: 


RÍíw1- E a iz (d. 7(x.w)j] 2) 


A kockázat meghatározásánál a várható értéket a minták (x.d) együttes sűrűségfüggvénye szerint kell 
vennünk. Ugyanakkor — ahogy ezt az R(w) jelölés mutatja 15 — a kockázat a paramétervektor függvénye, amit 
szokás kritérriumfüggvénynek (criterion function) 15 nevezni és C(w)-vel jelölni. A továbbiakban a két 
elnevezést és a kétfajta jelölést egymás alternatívájaként kezeljük: adott szövegkörnyezetben azt a 
jelölést/elnevezést használjuk, melyet az aktuális témakörben általánosabban használnak. 


Osztályozási feladatoknál veszteségfüggvényként általában az osztályozási hibát használhatjuk, vagyis 


0 had — f[xw) 


r(a.s tem), ha dzf(xv) (2.8) 


je ei r r ,r r yr , [dé yr yr s yr d ki 
Ekkor a (2.7) szerinti kockázat a téves osztályozás valószínűségét adja meg. A tanulás tehát olyan 7 ) 
osztályozó konstrukcióját célozza, amely a hibás osztályozás valószínűségét minimalizálja. Itt w?" az adott 
függvényosztályt és a rendelkezésre álló tanító mintapont-készletet tekintve az optimális paramétervektor. 


A regressziós feladatoknál az egyik leggyakoribb veszteségfüggvény a hiba négyzetes függvénye: 


E(a.7 (xw))- (2(9- rem) 29) 
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bár más veszteségfüggvények alkalmazása 1s szokásos. Ilyen függvény lehet pl. az abszolútérték függvény vagy 
ennek kissé módosított változata az ún. e érzéketlenségi sávval rendelkező abszolútérték függvény. Egyes 
speciális alkalmazásokban szerepet kaphatnak a különböző abszolútérték-hatvány függvények, és ezek lineáris 
kombinációi, az "igen-nem" függvény, amely az optimumnál, ill. annak egy rögzített, általában szűk 
környezetében nulla, egyébként egységnyi (vagy más pozitív) értéket vesz fel. Speciális alkalmazásokban 
használnak logaritmikus, trigonometrikus, hiperbolikus függvényekből alkalmasan előállított hibafüggvényeket 
15. Egyes osztályozási feladatoknál előnyösen alkalmazható az 


z(d. f(x — [din 7 (xw)-r(1-d) In(1- 7(x.w)) (2.10) 


keresztentrópia függvény 15. (A téma iránt mélyebben érdeklődők az irodalomban pl. [Cic93] találhatnak 
ilyeneket, pl. a logisztikus, a Huber, a Talvar és a Hampel függvényt.) 


A hibafüggvény konkrét alakja — bizonyos közös lényeges tulajdonságokon (pl. az optimumhoz tartozó 
szélsőérték) túlmenően — a feladat jellegétől, az a priori ismeretektől (pl. különböző zaj eloszlások esetén más- 
más függvény biztosítja a "Jobb" viselkedést), és bizonyos mértékig szubjektív tényezőktől 15 függ. A 
hibafüggvény megválasztása befolyásolja a tanuló eljárás jellemzőit: az eljárás konvergenciáját, illetve a 
konvergencia sebességét, sőt magát a megoldást 15. Néhány fontosabb hibafüggvényt a 2.2 ábrán mutatunk be. 


2.2. ábra - Fontosabb veszteségfüggvények: (a) négyzetes függvény, (b) abszolútérték 
függvény, (c) £ érzéketlenségi sávval rendelkező igen-nem függvény 


[E] 7 ászékeilere édi 3úV 
Tr h. d Ji 1 . r 1 - r —— ag - 





(a) (b) (c) 


A kockázat négyzetes veszteségfüggvény mellett a tanuló rendszer átlagos négyzetes hibája. Az átlagos 
négyzetes hiba vizsgálata több hasznos következtetésre ad lehetőséget. Ennek érdekében bontsuk fel a kockázat 
kifejezését több tagra: 


Re) E[d- 7 e) J-2[(1-2(9r ee) 7 bes) ) 
— fi (2-g(x)) ) tEI (y(ew)- elj) [4221 [d-g(x)) Íg (x— (xv) 


(2.11) 


Feltételezve, hogy — amint azt az előbbiekben kikötöttük — a megfigyelési zaj nulla várható értékű, továbbá, 


hogy a zaj és a g(x) leképezés korrelálatlan, a (2.11) összefüggés utolsó tagja zérus, hiszen d-glxj-n . Így a 
kockázat az alábbi két tagra bontható: 


R(wj- E((d-e(gz[(7ewj-etgy elé ez[(7(sw-etgj] 


(2.12) 


Az első tag nem függ a tanuló rendszer leképezésétől, csupán a megfigyelt kívánt válasz és a glx) ideális 
leképezés eltérésétől, ami épp a megfigyelési zaj. Az első tag tehát a megfigyelési zaj varianciájával egyenlő. Ez 
a hibakomponens nyilvánvalóan független a tanuló eljárástól, és nem 15 csökkenthető w megfelelő 
megválasztásával: az optimális w meghatározásánál tehát figyelmen kívül hagyható. Ebből következik, hogy a 
kockázat minimumát biztosító w"?" paramétervektor egyben a tanuló rendszer és a regressziós függvény 
válaszainak átlagos négyzetes eltérését 15 minimalizálja. 
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A feltételezett zajmodell mellett tehát a zajos megfigyelések ellenére a kockázatminimalizálás a regressziós 
függvény átlagos négyzetes éri 7 (xw) vett legjobb közelítését eredményezi. Másfelől, ha a tanulás célját úgy 


7 galmazzuk meg, hogy azt az -t keressük, amely adott x mellett a lehető legjobban közelíti a megfelelő 
kívánt választ, akkor a megoldást az 


MSE(w) 7 fi íg [wz ]— glxjj) (2.13) 


minimalizálása biztosítja. A válasz helyességének természetes mértéke tehát a tanuló rendszer leképezése és a 
regressziós függvény kimenete közötti eltérés átlagos négyzetes értéke (MSE). 


Az approximációs hiba (2.13) kifejezése alkalmas a megoldás minősítésének további elemzésére 15. Az átlagos 
négyzetes eltérés ugyanis tovább dekomponálható, és ennek a dekompozíciónak az eredményeképpen juthatunk 
a torzítás-variancia dilemmához. 


Torzítás-variancia dilemma 


Bontsuk fel a (2.13) kifejezést a következő módon: 
MSE Gw) E((7 be) -e gy) 
- E (e(9- El 7 e) ) El 7 e) - 7 (es) 


(e9- ely) Pf (7 er eze) 
— 5: [w]- EÜ] 


. (2.14) 


A felbontás szerint az átlagos négyzetes eltérés két tagjából az első, B((w) a torzítás négyzete, a második, V(w) 
pedig a megoldás vartanciája. A torzítás (bias) azt mutatja meg, hogy a tanuló rendszer leképezésének várható 
értéke mennyiben tér el a regressziós függvénytől, míg a vartancia a leképezésnek a saját várható értékétől való 
átlagos négyzetes eltérését adja meg. A torzítás arra ad választ, hogy az adott függvényosztály — amit a háló 
típusa és architektúrája rögzít — mennyire alkalmas a kérdéses approximációs feladat megoldására, a vartiancia 
pedig a véges számú tanítópont következménye: azt adja meg, hogy a véges számú tanítópont felhasználásával 


konstruált háló válasza, fiw) mennyire érzékeny arra, hogy egy adott problémából származó aktuális 
tanítóhalmaz épp milyen mintapontokból áll. 


Azonos négyzetes hiba előállhat nagyobb torzítás és kisebb variancia vagy kisebb torzítás és nagyobb varlancia 
mellett; a két eset eltérő jellegű approximációt jelent. A szabad paraméterek számának növelése és így a háló 
által megvalósított függvényosztály komplexitásának növelése a torzítás csökkentését eredményezi. Minél több 
a szabad paraméter, annál komplexebb leképezés megvalósítására lehet alkalmas a neuronháló. Elegendően 
nagyszámú szabad paraméter mellett a háló válasza a tanítópontokban akár tetszőlegesen kis hibájú is lehet, 
miközben a tanítópontok között a válasz a valódi leképezéstől jelentős mértékben eltérhet. Ezt az esetet, amikor 
a torzítás kicsi, de a variancia nagy túlilleszkedésnek (overfitting) nevezik. A vartiancia csökkentése elsősorban 
a felhasznált tanítópontok számának a növelésével, pontosabban a szabad paraméterek számának és a 
tanítópontok számának megfelelő összehangolásával lehetséges. 


A túlilleszkedésre példa egy olyan polinomiális regresszió, amikor kevés mintapontra akarunk nagyfokszámú 


tt át a 


mintavételi pontok alapján. Az (a) ábrán egy túl nagy fokszámú (18-ad fokú) polinommal történő közelítés, a (b) 
ábrán egy 5-ödfokú polinom illesztésének az eredménye látható. Látható, hogy a fokszám csökkentésével — 
esetleg a mintapontokbeli tökéletes illeszkedés rovására — a pontsorozat általános trendjének követése inkább 
lehetséges. 


2.3. ábra - A szabad paraméterek számának hatása a túlilleszkedére: szinusz függvény 
polinomiális approximációja. (a) 18-ad fokú polinommal, (b) 5-ödfokú polinommal 
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(a) (bh) 
A torzítás-vartancia dilemma tehát azt a kérdést veti fel, hogy hogyan viszonyuljon egymáshoz a kétféle 
hibakomponens. A kérdés szorosan összefügg a háló típusának és méretének (komplexitásának) a 
megválasztásával, de kapcsolatban van a tanítópontok számával és magával az alkalmazott tanuló eljárással 15. 


Az átlagos négyzetes hiba ilyen felbontása tehát azáltal, hogy segít a hiba értelmezésében, fontos szerepet tölt be 
a hálók megfelelő konstrukciójában. 


A torzítás-variancia dilemmát szemlélteti a 2.4 ábra. Látható, hogy az átlagos négyzetes értelemben legjobb 
megoldást nem a nagykomplexitású háló eredményezi, hanem az, ha a komplexitás összhangban van a 
tanítópontok számával és a feladat bonyolultságával. 


Regularizáció 


Mint láttuk, a véges számú mintapont alapján történő tanulási feladat rosszul definiált probléma. Egy feladatot 
rosszul definiáltnak (ill-posed) [Had02] nevezünk, ha 


e nem létezik megoldása, vagy 
e a megoldás nem egyértelmű, vagy 
e a megoldás a kiinduló adatoknak nem folytonos függvénye. 


Mint ahogy a 2.1. ábra is illusztrálta, a véges számú pontból egy bemenet-kimenet leképezés megtanulása 
rosszul definiált probléma, mert a második feltételt nem teljesíti. 


2.4. ábra - A torzítás-variancia dilemma. 
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MSE 


variangia 


bhias" 


[] 


modell komplexitás (a szabad paraméterek száma) 


optimalis modell komplexitás 


Az adatokból történő tanulás ugyanakkor ún. inverz probléma is. Tekintsünk egy "7 f(x) 
függvénykapcsolattal definiált leképezést. Ha a függvény ismert, adott x; i—1, 2, ... , Il független változó 
értékekhez a megfelelő y; függvényértékek egyértelműen meghatározhatók. Ezzel szemben, ha az összetartozó 


Z s 
3 eds] ún mintapontokat ismerjük, és ebből akarjuk visszaállítani az y- f(x) függvényt, akkor egy inverz 
problémával állunk szemben. Az inverz problémák között számos rosszul definiált problémát találunk. 


A neuronhálók tanításánál a rosszul definiáltság valójában azt jelenti, hogy a rendelkezésre álló információ — a 
tanítópontok együttese — az egyértelmű megoldáshoz nem elegendő. Egyértelmű megoldást csak további 
információ birtokában kaphatunk. Ilyen további információ lehet, hogy a megtanulandó leképezés — azon túl, 
hogy illeszkednie kell a tanítópontokra — legyen minél simább. Hasonló járulékos információként szolgálhat, ha 
egy kétosztályos osztályozási feladatnál arra törekszünk, hogy a két osztályt elválasztó felület ne csak elválassza 
a tanítópontokat, hanem az elválasztás minél nagyobb biztonsággal, tartalékkal valósuljon meg, az elválasztó 
felület az egyes osztályokba tartozó tanítópontoktól minél távolabb legyen. 


A járulékos információkat be kell építenünk a probléma megfogalmazásába: a kockázat funkcionált járulékos 
taggal (tagokkal) kell kiegészítenünk. A járulékos tag mellékfeltételként vagy büntető tagként igyekszik a tanuló 
eljárást rákényszeríteni, hogy ne csak a kockázatot minimalizáló, hanem a mellékfeltételnek is eleget tevő 
megoldást kapjunk. Ha a kritériumfüggvényünket úgy módosítjuk, hogy a mintapontokra vonatkozó kockázatot 
kiegészítjük megfelelő mellékfeltétel(lekejt megfogalmazó taggal (tagokkal), regularizációról beszélünk [T1k77]. 
Regularizált esetben a kockázat helyett egy 


Rh) Alw) táSÍw) (2.15) 


kifejezés minimumát (szélső értékét) biztosító paramétervektort keresünk, ahol R(w) az eredeti kockázat, szlw ) 
a regularizációs feltételt megfogalmazó járulékos komponens és 4 az ún. regularizációs együttható. A járulékos 
tag valamilyen plusz feltétel, kényszer figyelembevételét szolgálja, amely tükrözhet meglévő a priori 
információt, megfogalmazhat valamely, a realizációval kapcsolatos kényszert, vagy csak egyszerűen segíthet a 
szélsőérték probléma megoldásában. A regularizációs együttható szerepe, hogy az eredő kockázatban biztosítsa 
az eredeti kockázat és a regularizációs feltétel megfelelő arányát. A regularizáció, melynek elméleti 
megalapozása Andrej Tyihonovtól származik [T1k77], általában a rosszul definiált feladatok megoldásában 
nyújt segítséget. A regularizációs technika alkalmazására példákat a további fejezetekben, konkrét hálók 
kapcsán mutatunk. 


Minősítő és teszt minták alkalmazása, kereszt kiértékelés 


A kockázat alkalmazása a tanítás alatt álló vagy a megtanított háló minősítésére csak elvi lehetőség, hiszen a 


várható érték számításához vagy a pizd) együttes sűrüségfüggvény vagy a Pld ) együttes eloszlásfüggvény 
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ismeretére lenne szükség. A mintákból történő tanulásnál ezeket azonban nem ismerjük, így a tanuló rendszer 
minősítésére a kockázat közvetlenül nem használható. 


A kockázat közvetett meghatározásával lehetőségünk nyílna a tanuló rendszer minősítésére. Ekkor a 
tanítópontok alapján előbb az ismeretlen sűrűségfüggvényt becsüljük, majd annak ismeretében már tudunk 
becslést adni a kockázatra. A közvetett megoldás nehézsége, hogy a sűrűségfüggvény megfelelő pontosságú 
becsléséhez nagyszámú mintára van szükségünk. Hasznosabbnak bizonyul, ha nem ezt az utat választjuk, hanem 
a rendelkezésre álló mintapontokat mind a háló tanítására, mind annak minősítésére 15 közvetlenül 
felhasználjuk. Ez a megközelítés abból az általános elvből indul ki, hogy ne kíséreljünk meg egy speciális 
problémát egy nála nehezebb általános probléma megoldásának felhasználásával, indirekt úton megoldani 
[Vap95]. 


Amennyiben a sűrűségfüggvényt nem ismerjük, a kockázat alapján történő minősítés helyett a minősítésre 15 
csak a rendelkezésünkre álló mintapontokat használhatjuk. Mást nem tehetünk, minthogy az ismert válaszú 
pontok esetében meghatározzuk a tanuló rendszer válaszának hibáját. Ezen pontok hibájának átlagát empirikus 
vagy tapasztalati kockázatnak (empirical risk) nevezzük. Az / i15smert tanító pontpár esetében a tapasztalati 
kockázat: 


Renp hw) IL (d.7 (aw) 
út , (2.16) 


vagyis a tanítópontokban meghatározott veszteség átlaga. 


Amennyiben a tapasztalati kockázatot a tanulásnál felhasznált mintapontokra számítjuk, a háló általánosító - 
képességéről általában semmit sem mondhatunk. A már említett túlilleszkedés miatt ugyanis előfordulhat, hogy 
a háló a tanítópontokat nagy pontossággal megtanulta, miközben a tanítópontoktól eltérő pontoknál a hiba 
nagyon nagy 15 lehet. A háló általánosítóképességének jellemzésére olyan mintapontokra kell meghatároznunk a 
tapasztalati hibát, melyeket a tanításnál nem használtunk fel. 


Ennek érdekében egy külön kiértékelő (validation) mintakészletet kell használnunk, melynek mintái ugyancsak 
a megoldandó feladatból származnak, de amelyek függetlenek a tanító készlettől. A kiértékelő mintakészletet 
sokszor a tanítás folyamata alatt, a tanulás előrehaladtának értékelésére használjuk. Így, annak ellenére, hogy 
ezen minták nem tartoznak a tanításnál közvetlenül felhasznált mintapontok közé, közvetve részei a tanuló 
eljárásnak. A megtanított háló minősítésére ekkor egy ettől 15 független mintakészlet, a tesztkészlet szolgálhat. 
A tesztkészlet szintén az adott problémából származó összetartozó be-kimeneti mintapárok halmaza. A 
tesztkészlet mintapontjait azonban a tanításnál sem közvetlenül, sem közvetve nem használjuk fel. A 
tesztkészlet a megtanított háló végső értékelésére, a háló általánosítóképességének a becslésére használható. 


A rendelkezésre álló mintapontokat egy problémánál ezért három részre, tanító-, értékelő- és tesztelő készletre 
kell bontanunk. Kellően nagyszámú adat mellet ez nem okoz nehézséget. Ha azonban kevés adat áll 
rendelkezésünkre (ez számos gyakorlati feladatnál előfordulhat vagy az adatok beszerzésének nagy költsége, 
vagy az adatoknak a probléma természetéből adódó kis száma miatt) a három diszjunkt készletre bontás azt 
eredményezheti, hogy az egyes részfeladatok elvégzéséhez túl kevés mintapontunk marad. Így, ha viszonylag 
sok pontot használunk fel a tanításra és kevés marad a megtanított hálózat minősítésére, nem lehetünk biztosak a 
megtanított hálózat képességeit illetően. Ezzel szemben, ha a minősítésre hagyunk több mintapontot és ezért 
kevés tanító pontunk lesz, csak azt konstatálhatjuk — bár ezt kellő biztonsággal tehetjük —, hogy a hálónk 
meglehetősen gyengén tanulta meg a feladatot. Ekkor, mint ahogy a (2.14) összefüggésből is látható az eredő 
hiba vartiancia komponense lehet nagy. Az egyes részhalmazok közötti megfelelő arányok meghatározása 
meglehetősen nehéz feladat. Erre vonatkozó néhány eredményt, melyet Shun-ichi Amari és munkatársai 
dolgoztak ki [Ama97], a 4. fejezetben fogunk röviden bemutatni. 


Az ellentmondás egy lehetséges feloldására ún. kereszt kiértékelési (cross validation) eljárás alkalmazható (pl. 
[Sto78]). Ennek során a rendelkezésre álló mintapontokat véletlenszerűen felosztjuk k diszjunkt részhalmazra, 
majd k-1 részhalmaz pontjait tanításra, a maradék részhalmaz pontjait pedig kiértékelésre használjuk. Az eljárást 
megismételjük az összes részhalmazra úgy, hogy a tanítópontok közül mindig más-más részhalmazt hagyunk ki 
és használunk ktértékelésre. A hálózat eredő minősítését az egyes kiértékelések átlagaként nyerjük. Az eljárás 
előnye, hogy a rendelkezésre álló pontok jelentős részét felhasználjuk a hálózat tanítására, miközben az eredő 
értékelést az összes pont alapján végezzük, de úgy, hogy egy adott tanítást követően a háló értékelése mindig 
csak olyan pontokkal történik, melyeket az adott tanításnál nem használtunk fel. Hátrányként a hosszabb 
számítási időt említhetjük, hiszen a feladatot most k-szor kell megtanítanunk. Nagyon kevés rendelkezésre álló 
pont esetén a részhalmazok száma megegyezhet a pontok számával (k-/), ekkor minden tanítás /-1 ponttal 
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történik, a minősítésre pedig a kihagyott pontot használjuk. Az eljárást itt 15 /-szer végezzük el, tehát végül Itt 15 
az összes pont alapján történik a megtanított háló minősítése. A kereszt kiértékelést ebben az esetben egy- 
kihagyásos (leave-one-out, 100) eljárásnak hívjuk. 


Az Itt említett eljárások a tapasztalati hibát alkalmazzák a megtanított háló minősítésére. Láttuk azonban, hogy 
ha a tapasztalati hibát a tanításnál ténylegesen felhasznált pontokra számítjuk, az általánosítóképességről nem 
kapunk megbízható információt. Amennyiben viszont független tesztkészletet használunk, a rendelkezésre álló 
ismert válaszú pontok korlátozott száma okozhat nehézségeket. További gondot jelent, hogy, még ha a tanító 
készlettől független tesztkészletet használunk 15 a minősítésre, a tapasztalati hibát mindenképpen véges számú 
pont alapján számítjuk. A tapasztalati kockázat tehát csupán becslése a valódi kockázatnak, és — különösen 
kevés teszt adat mellett — a becslés nagyon pontatlan is lehet. Alapvetően fontos ezért annak a kérdésnek a 
megválaszolása, hogy a tapasztalati hiba alapján állíthatunk-e valamit a (2.7) összefüggéssel definiált valódi 
kockázatról, és ha igen, akkor ez milyen feltételek mellett tehető meg. Erre a kérdésre az elsősorban Vladimir 
Vapnik nevéhez fűződő statisztikus tanuláselmélet (statistical learning theory) ad választ, melynek alapjait a 
2.3. alfejezetben foglaljuk össze. 


2. Nemellenőrzőtt tanulás 


Ellenőrzött tanulásnál a tanuló eljárás céljának megfogalmazása természetes módon adódott: a tanulással olyan 
rendszert kívántunk kialakítani, amely valamilyen előre meghatározott viselkedést mutat, vagy egy ilyen 
viselkedést legalább közelít. Mindezt felcímkézett tanítópontok alapján tettük, ahol a címke a bemenethez 
tartozó kívánt válasz volt. 


Nemellenőrzött tanításnál címkézetlen tanítópontjaink vannak, így egy előírt viselkedés megtanulása fel sem 
merül. A hálózatnak a bemenetei és a kimenetei alapján, de kívánt válaszok ismerete nélkül kell valamilyen 
viselkedést kialakítania; a környezetből azonban nincs közvetlen visszajelzés, ami a hálózat viselkedésének a 
helyességére utalna. Azt a kérdést kell tehát feltennünk, hogy ilyen esetben lehet-e egyáltalán értelmes célt 
megfogalmazni, amit tanulással, a mintákban meglévő ismeret kinyerésével érhetünk el. Mivel csak a 
címkézetlen minták állnak rendelkezésünkre, mást nem tehetünk, minthogy a mintákat elemezzük. Azt 
vizsgáljuk, hogy a mintáink mennyiben hasonlítanak egymáshoz, vagy milyen mértékben különböznek 
egymástól; a mintapontok terében vannak-e olyan tartományok, ahol a mintáink sűrűsödnek, lehet-e a 
mintatérben csoportokat, klasztereket találni, stb. 


A nemellenőrzött tanulás a mintákból való tanulásnak talán még az ellenőrzött tanulásnál 15 elemibb formája; 
olyan adatelemzés, amikor azt próbáljuk felderíteni, hogy az adataink egyáltalán hordoznak-e valamilyen 
információt. Ha igen, akkor azt valamilyen módon meg akarjuk , ragadni", az adatokból ki akarjuk nyerni. Azt 15 
mondhatjuk, hogy a nemellenőrzött tanulás egyfajta adatbányászat. 


Tipikus nemellenőrzött tanulási feladat a sűrüségfüggvénybecslés vagy a klaszterezés. Nemellenőrzött tanulási 
feladatként megfogalmazható az 15, hogy sokdimenziós adattérben vannak-e kitüntetett , irányok", melyek az 
adatok reprezentálásánál elsődlegesen fontosak, míg más irányok szerepe kisebb, esetleg elhanyagolható. Az 


at. stét al 


A nemellenőrzött tanulási eljárásokat sokszor adatelőkészítésre, az adatok előfeldolgozására használjuk, mielőtt 
egy ellenőrzött tanulással megoldható feladatot oldanánk meg. Ilyenkor a nemellenőrzött tanulás bizonyos, a 
későbbi feldolgozást elősegítő lényeges információ kiemelésére, lényegkiemelésre, jellemzőkinyerésre (feature 
extraction) szolgál. 


Számos esetben a nemellenőrzött tanulási eljárásoknál 15 megfogalmazhatók kritériumfüggvények, így a 
nemellenőrzött tanulás 15 interpretálható olyan feladatként — pl. szélsőérték-keresési feladatként —, ahol 
valamilyen kritérium kielégítése a cél. Nemellenőrzött tanulásnál az alkalmazott kritériumfüggvények 
leggyakrabban az adatok eloszlásával, az adatok egymáshoz viszonyított elhelyezkedésével, az 
adatkomponensek közötti  korrelációval — kapcsolatosak, de itt 15 megfogalmazhatók négyzetes 
kritériumfüggvények. Ilyen eset például, ha az adatok hatékony, átlagos négyzetes értelemben vett közelítő 
reprezentációja a cél. 


A nemellenőrzött tanulásnál a kritériumfüggvények sokszor információelméleti fogalmakhoz kapcsolódnak. Így 
kritériumként szerepelhet az entrópia (olyan adatreprezentációt keresünk, ahol az entrópia valamilyen extremális 
értéket vesz fel), a kölcsönös információ (az adatok statisztikai függetlenségét szeretnénk biztosítani) vagy a 
Kullback-Leibler divergencia (olyan tanuló eljárásnál, ahol két sűrüségfüggvény hasonlósága alapján történik a 
tanulás). 
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Számos, a nemellenőrzött tanulású hálóknál alkalmazott kritérriumfüggvényt az egyes hálók tárgyalásánál (10. 
fejezet) fogunk bemutatni. 


3. A statisztikus tanuláselmélet alapjai 


Az előzőekben láttuk, hogy a valódi kockázat meghatározása a megfelelő sürűség- vagy eloszlásfüggvény 
ismeretének hiányában nem lehetséges, így akár a tanulás eredményének folyamatos követése, akár a 
megtanított háló minősítése csak a tapasztalati kockázat alapján lehetséges. A tanítópontok átlagos hibájának, a 
tapasztalati kockázatnak a minimalizálása útján nyert megoldás kisszámú tanítópont esetén automatikusan nem 
biztosítja, hogy ez a megoldás a valódi kockázat minimumát is biztosítani fogja. A tapasztalati kockázat 
minimalizálásának elve (empirical risk minimization — ERM -— principle) ennek ellenére azt mondja ki, hogy 
eredménynek a tapasztalati hiba minimumát biztosító megoldást fogadjuk el. 


A véges számú mintából való tanulás és statisztikai becslés elméleti megalapozása Vladimir Vapniktól és 
Alekszej Cservonyenkisztől származik [Vap95], [Vap98]. Ez az elmélet, melyet statisztikus tanuláselméletnek 
(statistical learning theory) vagy Vapnik-Cservonyenkisz (VC) elméletnek 15 neveznek, megadja a tapasztalati 
kockázat alkalmazhatóságának egzakt matematikai feltételét. Megmutatja, hogy bizonyos feltételek teljesülése 


esetén az B np tapasztalati kockázat, a mintapontok számának növelésével tart a valódi kockázathoz, R-hez, sőt a 
konvergencia sebességéről (vagyis arról, hogy a mintapontok számának függvényében a tapasztalati kockázat 
milyen gyorsan közelíti a valódi kockázatot) 15 tud bizonyított állítást megfogalmazni. 


A statisztikus tanuláselmélet fontos eredménye az 1s, hogy az általánosítási hibára, vagyis a valódi kockázatra a 
tapasztalati hibától függő felső korlátot tud adni, valamint, hogy általános eljárást ad olyan tanuló algoritmus 
konstrukciójára, mely mellett kontrolálható az általánosítási hiba. 


A statisztikus tanuláselmélet az alábbi négy fő részből áll. Megadja, hogy 
e mik a feltételei az ERM elv konzisztenciájának, 

e milyen gyors a tanulási folyamat konvergenciája, 

e milyen felső korlátok határozhatók meg az általánosítási hibára, és 


e milyen konstruktív eljárást lehet követni tanuló eljárások létrehozásánál, hogy a fenti eredmények érvényesek 
legyenek. 


A statisztikus tanuláselmélet elsősorban osztályozási feladatokra fogalmaz meg állításokat, de az elméletet 
kiterjesztették más tanulási problémákra, így regressziós feladatokra 15. 


A statisztikus tanuláselmélet teljes mélységű tárgyalását [ Vap98]-ban találjuk. Az elmélet mögötti alapvető 
gondolatok, az eredmények matematikai megfogalmazásával, de bizonyítások nélkül [ Vap95]-ben szerepelnek, 
míg egy rövid áttekintést [Vap99] ad. Jelen könyvben — jórészt [Vap95] és [Vap99] alapján — csak a 
legfontosabb eredmények rövid áttekintése szerepel a matematikai részletek mindennemű bemutatása nélkül. A 
téma iránt érdeklődő olvasó elsősorban az említett három irodalomban talál bővebb és mélyebb ismereteket. 


3.1. Az ÉRM konzisztenciája 


Az ERM elv szerint a kockázat minimalizálása elérhető a tapasztalati kockázat minimalizálása alapján. Az ERM 
konzisztenciája azt jelenti, hogy a tapasztalati kockázat tart a valódi kockázathoz, ha a mintapontok számát 
minden határon túl növeljük, tehát az ERM konzisztenciájára vonatkozó elméleti eredmények a tapasztalati hiba 
aszimptotikus alakulására vonatkoznak és megadják a tapasztalati hiba konvergenciájának szükséges és 
elégséges feltételét. 


Felmerül a kérdés, hogy mi szükség van egy aszimptotikus elméletre, amikor véges számú minta alapján 
dolgozó tanuló algoritmusokat vizsgálunk. A konzisztencia elmélet szükségességét az támasztja alá, hogy ez az 
elmélet a tapasztalati hiba minimalizálás konzisztenciájának nemcsak szükséges, de elégséges feltételeit 15 
megadja. Ezért az ERM elv konzisztenciájára vonatkozó bármely elméletnek ki kell elégítenie ezeket a 
feltételeket. 
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z—íx d) 


A probléma megfogalmazásához induljunk ki az eddigi jelölésekből. Jelöljig  2.....,z; egy tanító be- 


kimeneti mintapárt. A tanítási feladat során rendelkezésünkre áll egy tanítókészlet, melynek 
elemeiről feltételezzük, hogy egymástól független, azonos — de ismeretlen - fíz, wiláu z 4ytapontok. A p(z) 


sűrűségfüggveé pr ?hát nem Ismerjük. Adott továbbyy gy veszteségfüggvény, , és a cél a (2.79- 
ben definiált kocká.: (xy Inimumát biztosító paramétervektor meghatározása. Mivel a mintaponwy, 
eloszlását nem ismerjük, -t sem tudjuk meghatározni, így a valódi kockázat minimumát biztc Ren (w) 


paramétervektort sem. Az ERM elv szerint a valódi (ismeretlen) ku.rázat helyett a (meghatározható) 


tapasztalati kockázattal dolgozunk és az ennek minimumát biztosító  paramétervektort keressük. 


A tanuló eljárások többségénél ezt az eljárást követjük anélkül, hogy az eljárás elméleti megalapozottsága 
bizonyított lenne. Ez ugyan természetesen adódó megoldás, hiszen a mintapontok eloszlásának ismerete nélkül 
csak a tapasztalati hiba határozható meg, azonban az eljárás alkalmazhatóságához a matematikai igazolás is 
szükséges lenne. Az igazolás és a megfelelő feltételek meghatározása ezért mind elméleti, mind gyakorlati 
szempontból kiemelten fontos. 


Az ERM elv alkalmazhatóságához azt kell belátni, hogy az ERM elv alapján kapott becslés, W" a valódi 
paramétervektorhoz konvergál, ha a tanítópontok számát növeljük. A statisztikus tanuláselmélet fő eredménye 
éppen az, hogy megadja az ERM konzisztenciájának feltételét. 


Először nézzük, hogy mit is jelent az ERM elv konzisztenciája. Jelölje Ken [9 az l mintapont alapján 


Rés") 


meghatározott tapasztalati hiba optimumát, és azt az Ismeretlen valódi kockázatot, melyet ugyancsak az 


l tanítópont alapján számított tapasztalati hhbba minimumát biztosító w" mellett kapnánk. Az ERM elv akkor 
konzisztens, vagyis az ERM elv alapján számított kockázat becslés akkor konzisztens, ha mind a tapasztalati 


kockázat, Ken 7 E) , mind a valódi kockázat, Rés) ugyanahhoz az AGwo)— miny A(W) natárértékhez tart, 
ha 1600. Vagyis 


Réw" IP) RGwg), ha ? — en 


öö (w" PE) — AG). ha 4 en 2.17) 


A konzisztenciát szemléletesen a 2.5 ábra illusztrálja. Amint az ábra mutatja, feltételezhető, hogy 


Kap íw KE) 2 A ar 


határozza meg w" ot. Intuitív módon azt várjuk, hogy / C co esetén a tapasztalati kockázat bármely W mellett 
konvergál az ugyanahhoz a W paramétervektorhoz tartozó valódi kockázathoz. Ebből azonban még nem 
következik, hogy a tapasztalati hibát minimalizáló paramétervektor a valódi hibát 15 minimalizálni fogja, ha / 
co. Hiszen a tapasztalati hiba mindig egy adott / elemű mintapontkészlet alapján határozható meg, így 
óhatatlanul az épp rendelkezésre álló mintakészlethez igazodó megoldást biztosít. A valódi kockázat viszont 
nem függ az aktuális mintakészlettől. 


H) , hiszen a tanuló eljárás a tapasztalati hiba és nem a valódi hiba minimalizálása útján 


2.5. ábra - Az ERM elv konzisztenciája 
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várható kockazat Ríw"j) 





min RíwyzR(wg) 


tapasztalati kockazat Komlwő"i) 


A statisztikus tanuláselmélet fő tételét Vladimir Vapnik és Alekszej Cservonyenkisz fogalmazták meg. 
2.1 tétel [Vap91] 


Adott korlátos veszteségfüggvény mellett az ERM elv akkor és csak akkor konzisztens, ha a tapasztalati 
kockázat egyenletesen konvergál a valódi kockázathoz a következő értelemben: 


líra PI uplRG) — Rp éw) ü -0 vez 7-6 


AL) 


Itt P a valószínűséget, Bp lw) az l mintapont alapján számított tapasztalati kockázatot, pedig a valódi 


kockázatot jelöli azonos w mellett. 


Látni kell, hogy a konzisztenciatétel legrosszabb esetre vonatkozó, ún. worst case tétel, vagyis ha a 
konzisztencia biztosított, a fenti összefüggésnek fenn kell állnia bármely, a tanuló rendszer által megvalósított 
függvény (bármely W E WV) mellett még akkor 15, ha az adott függvény mellett a tapasztalati és a valódi 
kockázat eltérése a legnagyobb. 


A fenti konzisztenciatétel ugyanakkor gyakorlati felhasználásra nem alkalmas. Egyrészt nem konstruktív, vagyis 
ennek alapján nem tudunk a gyakorlatban tanuló rendszert konstruálni, másrészt a konvergencia ténye 
önmagában nem elegendő, hiszen a tapasztalati kockázat tetszőlegesen lassan 15 konvergálhat a valódi 
kockázathoz. A konvergencia-sebességről 1s kellene valamit állítani; meg kellene fogalmazni azon feltételeket, 
melyek mellett a konvergencia gyors. 


Az aszimptotikus konvergenciát gyorsnak nevezzük, ha tetszőleges / 5 1, esetére teljesül a következő 
egyenlőtlenség: 


PI(R Gw" — R(w)) 7 e] za ét 9) 


ahol c50 egy konstans. 


A statisztikus tanuláselmélet megadja mind a konzisztencia szükséges és elégséges feltételét, mind a gyors 
konvergencia elégséges feltételét. A feltétel megfogalmazásához néhány további fogalom bevezetésére van 


zt Gb a 


6. te 
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lehetséges, bár e fogalmat kiterjesztették valós értékű függvényekre 15. Osztályozós esetben a 
veszteségfüggvény csak két értéket, nullát vagy egyet vehet fel. Az ilyen függvényeket indikátorfüggvényeknek 
nevezzük. A valós értékű függvényekre való kiterjesztés alapján az eredmények általánosíthatók regressziós 
feladatokra 1s; a kiterjesztéssel azonban itt nem foglalkozunk. 


Tekintsük az Elza). we W indikátorfügvények egy osztályát és legyen adott egy Z.7-íz il.) 


mintakészlet. Minden egyes indikátorfüggvény két részhalmazra particionálja a mintakészletet. A particionálás 
kétosztályos osztályozást jelent, vagyis azt 15 mondhatjuk, hogy a particionálásnál a mintakészlet pontjait két 
eltérő színnel kiszínezzük. A függvényhalmaznak az adott mintakészletre vonatkozó sokféleségét (diversity) 
jelöljük M2Z)-vel. N(Z) egy olyan szám, ami azt adja meg, hogy az adott függvényosztály elemeivel az adott 


őt Zöket a 


entropy ) e szám logaritmusát nevezzük: 


H(Z)-In MZ) 2.20) 
A kapott mennyiség egy valószínűségi változó, hiszen függ a Z  mintakészlettől. A véletlen entrópiának a 
minták együttes eloszlása szerinti várható értéke az indikátorfüggvény entrópiája vagy VC-entrópia. 

H(D- Elln N(Z;)i 22) 
A VC-entrópia mind az indikátorfüggvény-halmaztól, mind a mintakészlet eloszlását jellemző együttes eloszlás- 


vagy süűrüségfüggvénytől függ. A VC-entrópia az ERM elv konzisztenciájában kap szerepet, ugyanis az ERM 
elv konzisztenciájának szükséges és elégséges feltétele, hogy teljesüljön a 


nme elt 
be 7 (2.22) 


feltétel. 


Mivel ez az összefüggés a mintapontok eloszlásától függő VC-entrópiára vonatkozik, a közvetlen gyakorlati 
felhasználásra nem alkalmas. További , hiányossága", hogy a feltétel csak magának a konvergenciának a tényére 
vonatkozik, a konvergencia-sebességről nem állít semmit. A statisztikus tanuláselmélet ugyanakkor a 
konvergencia eloszlásfüggetlen feltételét 15 megadja, amely egyben biztosítja a (2.19) összefüggés által 
megfogalmazott módon a gyors konvergenciát 15. Ehhez a következőnek kell teljesülnie: 


A statisztikus tanuláselmélet a G(/) függvényt nevezi növekedésfüggvénynek (growth function), amelyet a 
véletlen entrópia alapján a következőképpen definiál: 


sz M(E 
C7(21-—iln 16 É H 224) 


G(]) értékei eloszlásfüggetlen mennyiségek, melyek meghatározásánál az összes lehetséges / elemű 
mintakészletet tekintve kell a maximumot keresni. A növekedésfüggvény a mintapontok számának 
függvényében azon lehetséges particionálások (kétosztályos szeparálások) maximális számát (pontosabban 


annak logaritmusát) adja meg, melyeket az Ela) függvényosztályba tartozó indikátorfüggvényekkel lehet 
megvalósítani. G(/) definíciója szerint elegendő, ha egyetlen olyan / elemű mintakészletet találunk, amely 
mellett a maximális számú szeparálás lehetséges. Az összes / elemű mintakészletnél nem feltétlenül kapunk 
azonos számban kétosztályos szeparálásokat. A növekedésfüggvény, ami az alkalmazott függvényosztálytól 
függ, az eloszlásfüggetlen entrópia felső korlátja. Ugyanakkor, mivel egy / elemből álló mintakészletet 


maximálisan 2" féleképpen lehet particionálni, nyilvánvaló, hogy 


vagyis a bevezetett mennyiségek között az alábbi egyenlőtlenségek állnak fenn: 


HIDEGKDElln2 226 
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Ennek igazolásához a VC-elmélet a Jensen egyenlőtlenség alapján felhasználja, hogy 


107 Etna zel MEZ 227) 


továbbá, hogy 


In E(N(Z)) 2ln max N(Z)-GG) 
Li . (2.28) 


Az általánosítóképességre vonatkozó eloszlásfüggetlen eredmény a növekedésfüggvény vizsgálata alapján 
nyerhető. Vapnik és Cservonyenkis bebizonyították, hogy a növekedésfüggvény vagy lineárisan növekszik /-lel, 
vagy / valamely logaritmikus függvényével felülről korlátozható, ahogy ezt a 2.6 ábra mutatja. 


2.6. ábra - A növekedésfüggvény alakulása 


G(D 


hiln (/Arr1) 


h h) 


Az előbbi esetben 


az utóbbiban pedig 


GP) en[141n5 
A (2.30) 


A mintapontok számának az az !/ értéke, ahol Ci) növekedése a lineáris növekedéshez képest lelassul nevezetes 
érték. Ezt az értéket nevezzük VC-dimenziónak, és a továbbiakban h-val fogjuk jelölni. Ha h véges érték, akkor 
nagy mintaszámokra a növekedésfüggvény a lineárisnál lassabban nő. 


Figyelembe véve a gyors konvergencia (2.23)-ban megfogalmazott feltételét, az ERM elv konzisztenciájának és 
a gyors konvergenciának eloszlásfüggetlen szükséges és elégséges feltétele, hogy a VC-dimenzió, h véges 
legyen. Ugyanakkor, ha a növekedésfüggvény bármekkora 7! mellet /-lel lineárisan nő, az adott 
indikátorfüggvény-készlet VC-dimenziója definíciószerűen végtelen. Ebben az esetben az adott függvényosztály 
elemeivel bármely / elemű mintakészletet minden lehetséges módon, tehát mind a a —féleképpen lehet 
particionálni. Ez pedig azt jelenti, hogy az a tanuló rendszer, amelyik ilyen függvényosztályba tartozó 
függvények megvalósítását végzi, általánosításra nem lesz képes. Vagyis akármilyen tanítókészletünk is lesz, a 
tanítópontokhoz bármilyen módon 15 rendeljük hozzá a kívánt válaszokat — a címkéket — a tanuló rendszer a 
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tanítópontokat mindig hibátlanul meg tudja tanulni; nem az osztályozási feladatot, hanem az adott 
mintapontokat tanulja meg, és így a tanítópontokra kapott válaszok alapján az általánosítóképességéről semmit 
sem tudunk állítani. 


Fentiek alapján a VC-dimenziónak egy alternatív definíciója 15 megadható: egy indikátorfüggvény-készletnek Ah 
a VC-dimenziója, ha létezik h olyan mintapont, melyeket a függvénykészlet elemeivel minden lehetséges 
módon be tudunk sorolni két osztály valamelyikébe (a h mintapontot minden lehetséges módon két színnel ki 
lehet színezni), de /7-1 ilyen mintapont már nem létezik. A VC-dimenzió tehát az a maximális mintaszám, amit 
adott függvényosztály elemeivel hibátlanul particionálhatunk minden lehetséges módon. A VC-dimenzió egy 
függvényosztály komplexitásának egyfajta mértékeként 1s tekinthető. 


A VC-dimenzió fogalmát illusztrálja a 2.7 ábra. Tekintsük a lineáris függvények osztályát, vagyis a mintapontok 
particionálására a lineáris függvények osztályából válasszunk függvényeket. Ha /—3, tehát három mintapontunk 
van, a ponthalmaz bármely particionálása (bármilyen címkézése) lehetséges megfelelően megválasztott 
egyenessel. Négy pont esetén ez már nem mindig oldható meg: az összes (29) lehetséges szeparálás mindegyike 
lineáris szeparáló függvénnyel már nem lehetséges. Az alábbi ábra a három ponthoz tartozó nyolc lehetséges 
kombinációt mutatja be. Jól látható, hogy a pontok bármely címkézése mellett szeparáló egyenes elhelyezhető. 
A négypontos esetek közül csak egy lineárisan nem megoldhatót mutatunk. Az ábra alapján meg 15 állapítható, 
hogy a lineáris szeparáló függvények osztályának VC-dimenziója kétdimenziós mintapontoknál 3. 


A statisztikus tanuláselmélet fontos eredménye, hogy annak megállapításán túl, hogy véges VC-dimenzióra van 
szükség, felső korlátokat 15 meg tud fogalmazni a tanuló rendszer valódi hibájára (a valódi kockázatra). Ezek a 
felső korlátok összekapcsolják a tapasztalati- és a valódi kockázatot. Arra a kérdésre adnak egyfajta választ, 


hogy milyen közel van egymáshoz az Rés) valódi kockázat és az Kemp éw [29 tapasztalati kockázat. A 
kapcsolatban h értékének 15 fontos szerep Jut. 


2.7. ábra - A lineáris szeparálás kapacitását bemutató kétdimenziós példa. Két 
dimenzióban három pont mindig szeparálható lineárisan: az első 8 elrendezés ezt 
mutatja, de négy pontnál ez már nem minden esetben lehetséges: Id. utolsó eset. 
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Az elmélet keretében számos ilyen korlát született. Itt példaként csak két eloszlásfüggetlen korlátot említünk 
meg, amelyek a bináris osztályozós (kétosztályos), illetve a regressziós problémákra vonatkoznak. 


Egy osztályozó valós hibájára vonatkozó következő egyenlőtlenség legalább 1-9 valószínűséggel érvényes az 


összes SZ.W) függvényre, köztük arra az Hz ]D) 


kockázatot minimalizálja: 


-re 15, amely az / mintapont alapján számított tapasztalati 


égy Ae, ése EL 

j e), 2.31) 
ahol 
agy a 4702 (221) -ln (7.73) 


z . (2.32) 
Itt ? a modell VC-dimenziója, és / a tanítóminták száma. 


A (2.31) összefüggés alapján látható, hogy a valódi kockázat felső korlátja két tagból áll: az első a mintapontok 
alapján számítható tapasztalati kockázat, míg a második a tanuló rendszer komplexitására jellemző VC- 
dimenzió értékétől (pontosabban a /// aránytól) 15 függ. Jó általánosító-képesség eléréséhez ezért mind a két tag 
minimalizálása szükséges: önmagában a kis tapasztalati hiba nem elegendő, hiszen ez csak azt biztosítja, hogy a 
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mintapontokat a tanuló rendszer jól megtanulta. Ha emellett a második tag értéke nagy, akkor az 
általánosítóképesség gyenge lesz. A már említett túlilleszkedés ilyen esetnek felel meg. A második tag, amit 
konfidencia tagnak ií5 szokás nevezni, akkor vesz fel nagy értéket, ha h értéke nagy, pontosabban, ha a 
mintapontok számához viszonyítva nagy a VC-dimenzió értéke. Mint említettük a VC-dimenzió tekinthető úgy, 
mint az osztályozási feladatot megoldó rendszer által megvalósítható függvényosztály komplexitásának 
valamilyen mértéke. Minél nagyobb komplexitású rendszerrel valósítjuk meg a feladatot, annál nagyobb az 
esély, hogy a tanítópontokban a hibát tetszőlegesen kicsivé tudjuk tenni, vagyis a (2.31) összefüggésben a 
tapasztalati hhbbakomponens tetszőlegesen kicsi lehet. Ugyanakkor, ha ezzel egyidőben a második tag nő, az 
általánosítóképesség gyenge lesz, a valódi kockázat értéke nagy lesz. 


A tanuló rendszer komplexitása függ a háló szabad paramétereinek számától. A statisztikus tanuláselmélet 
eredményei tehát összhangban vannak azzal a megállapítással, hogy a túl sok szabad paraméter a túlilleszkedés 
lehetősége miatt gyengébb általánosítóképességet eredményezhet, mint ha a szabad paraméterek számát 
korlátozzuk. Meg kell jegyezni azonban, hogy a statisztikus tanuláselmélet a komplexitás mérésére nem a 
szabad paraméterek számát, hanem a VC-dimenziót használja, ami azt sejteti, hogy a megvalósítható 
függvényosztály komplexitása nem csak a szabad paraméterek számával befolyásolható. Erről részletesebben a 
kernel gépekkel — köztük a szupport vektor gépekkel 15 — foglalkozó 6. fejezetben lesz szó. 


A (2.31) egyenlőtlenség 1-9 valószínűséggel érvényes, ahol az 19 )-t konfidenciaszintnek 15 szokás nevezni. 
Minél magasabb a konfidenciaszint (minél nagyobb valószínűséggel igaz a felső korlátra vonatkozó 
egyenlőtlenség), annál nagyobbá válik a konfidencia tag. Kis " mellett a felső korlát túl nagy értéket vesz fel, 
ami a felső korlát gyakorlati használhatóságát már megkérdőjelezi. Ez különösen kis mintapontszámnál igaz. Ha 
a mintapontok száma egyre nő, miközben a többi érték változatlan marad, a konfidencia tag értéke csökken, és 
így a tapasztalati hiba egyre jobb becslése lesz a valódi kockázatnak. Ez szintén összhangban van azzal az 
intuitív érzésünkkel, hogy minél nagyobb számú mintaponttal tanítunk egy hálót, annál megbízhatóbb az 
eredmény, és ekkor a mintapontokra vett átlagos hiba — a tapasztalati kockázat — önmagában 1s egyre inkább 
alkalmas lehet a háló minősítésére. 


Az VC-dimenzióra és így az általánosító-képességre vonatkozó eredmények kiterjeszthetők regressziós 
feladatokra 15. Regressziós esetben 15 megfogalmazható a valódi kockázat felső korlátja. Egy regressziós 


feladatnál a valódi kockázatra vonatkozó következő egyenlőtlenség legalább 1-9 valószínűséggel érvényes az 


ízow [27 


összes SZ.W) függvényre, köztük az empirikus kockázatot minimalizáló -re is: 


Benn ) 
séget]; (2.33) 


Ríwr) 2 


(a), — maxía, ÚJ 


ahol 56 t most is (2.32) adja meg és 
összefüggésben a c-1 választás ajánlott. 


. A legtöbb gyakorlati problémánál a (2.33) 


3.2. Strukturális kockázat minimalizálás 


Az előbbiek alapján nyilvánvaló, hogy a tapasztalati hiba kis értéke nem jelent egyben Jó általánosítóképességet 
Is. Az ERM elv konzisztenciájára és a gyors konvergenciára vonatkozó eredmények azt mutatták, hogy ha a 
mintapontszám nagy, pontosabban ha az $§"? arány nagy, akkor (2.31) jobb oldalának második tagja 
elhanyagolható: a tapasztalati kockázat közel azonos a valódi kockázat értékével. Ha azonban !/ ? értéke kicsi, 
akkor nyilvánvaló, hogy a kis empirikus hibából nem következik, hogy a valódi kockázat értéke 15 kicsi lesz. 
Megfelelően kis általánosítási hibához ezért a (2.31) egyenlőtlenség jobb oldalának mindkét tagját (illetve 
regressziós esetben a (2.31) egyenlőtlenség jobb oldalát) minimalizálni kell. Láttuk, hogy a két hibakomponens 
egymás rovására csökkenthető, hiszen a komplexitás növelésével a tapasztalati hiba csökken, de a második tag 
nő, míg a komplexitás csökkentése ezzel épp ellentétesen hat: a második tagot tudjuk csökkenteni, de a 
tapasztalati hibát a kisebb komplexitású tanuló rendszer csak kevésbé tudja minimalizálni. 


A komplexitás és a hiba együttes minimalizálásának formális kereteit a strukturális kockázatminimalizálás 
(structural risk minimization, SRM) megközelítés adja meg. Az SRM eljárás pont azt mondja ki, hogy véges 
(kis) mintaszámnál mindkét hibakomponenst együttesen kell minimalizálni. A módszert eredetileg Vapnik és 
Cservonyenkisz osztályozási feladatokra javasolták, de bármilyen tanulási feladatnál alkalmazható, amikor a 


szőtt ZEELelEE 
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nemcsak a tapasztalati kockázatot, hanem a VC-dimenzión keresztül a modell komplexitását is kézben kell 
tartani. 


Ennek érdekében az SRM egy egymásba ágyazottan növekvő komplexitású modellkészletet használ, azaz egyre 
komplexebb függvényosztályok elemeivel próbálja a feladatot megoldani. A megoldásnál használt S 
függvényosztály egymásba ágyazott részosztályokat 


FO Ed Age geg (2.34) 


tartalmaz. Minden egyes 5k részosztály véges "s. VC-dimenzióval jellemezhető és az egyes részosztályok 
növekvő VC-dimenzió (növekvő komplexitás) szerint sorbarendezettek: 


h2ha£...£h 8... (2.35) 


Az egyre növekvő komplexitás hatását a 2.8 ábra mutatja. Az ábrán a kockázat felső korlátja (a garantált 
kockázat) látható, és az, hogy ez két komponensből tevődik össze: a tapasztalati kockázatból és az ún. 
konfidencia-tagból. Minél komplexebb rendszert használunk, vagyis minél nagyobb a VC-dimenzió, annál 
kisebb lesz a tapasztalati kockázat, de ezzel együtt annál nagyobb a konfidencia-tag. Az optimumot h? mellett 
érjük el. 


Adott mintakészlet mellett az optimális modell konstrukciója ezért az alábbi két lépésből áll: előbb a megfelelő 


komplexitású modellstruktúrát — a megfelelő 4. 
modell konstrukciót a tanító mintapontok alapján. 


részosztályt — választjuk meg, majd ezen belül végezzük el a 


A statisztikus tanuláselmélet általánosítási képességre vonatkozó eredményeinek a jelentősége az, hogy — még 
ha csak felső korlát formájában is, de — formális kapcsolatot teremt a tanítópontokban számított átlagos 
kockázat, a tapasztalati kockázat és a tényleges általánosítási hiba, a valódi kockázat között. Az elmélet 
gyakorlati alkalmazása azonban nehézségekbe ütközik. Egyrészt egy függvényosztály VC-dimenziójának a 
meghatározása általában igen nehéz. A VC-dimenzió csak néhány egyszerűbb esetben kapható meg könnyen, 
gyakran pedig csak meglehetősen pontatlan felső becslés adható rá. Másrészt a megfogalmazott felső korlátok 
általában nem éles korlátok; a gyakorlati feladatoknál az általánosítási hiba Jóval kisebb, mint amit a felső korlát 
megad. Ezen még gyengít, ha a VC-dimenziót 1s csak becsüljük felülről. 


A kockázatra vonatkozó felső korlátok véges VC-dimenzió mellett értékelhetők. Ebből azonban nem 
következik, hogy nem létezhetnek jó általánosítóképességgel rendelkező olyan tanuló rendszerek, ahol a VC- 
dimenzió végtelen. Egyes neuronháló típusoknál — ilyen például a leggyakrabban alkalmazott többrétegű 
perceptron, az MLP 15 — a VC-dimenzió lehet végtelen, miközben e hálótípus a gyakorlatban igen sikeresen 
alkalmazható. A végtelen VC-dimenzió csak azt jelenti, hogy a statisztikus tanuláselmélet alapján az 
általánosítóképességről Itt semmit sem tudunk mondani. 


2.8. ábra - Az eredő kockázat és a tapasztalati kockázat a VC dimenzió (h) 
függvényében 


38 
XMLmind XSL-FO Converter 


Tanulás adatokból 


s. a valódi kockázat felső korlátja aa 


nt 
hév se 


szül 


i 


konfidencia tac 


tapasztalati hiba 


he LL LL 8 E E 











h 





Fentiek miatt a korlátokra vonatkozó eredmények neuronhálóknál általánosan nem alkalmazhatók. Hasonló 
mondható el az SRM megközelítésről 15. Ennek ellenére az elmélet elvi jelentőségén túl fontos gyakorlati 
következményekkel 1s Jár: a tanuló rendszereken belül meghatározó szerepet játszik a döntően a kilencvenes 
évek derekán kidolgozott szupport vektor gépek elméleti megalapozásában. A szupport vektor gépekről 
részletesen a 6. fejezetben szólunk. 


4. Tanulás és statisztikai becslések 


Amikor neuronhálók tanulásáról beszélünk a tanulás egyik legalapvetőbb, elemi formájáról van szó. Mérési 
adatokból, megfigyelésekből kell egy megfigyelt rendszerről, jelenségről, folyamatról általános ismereteket 
nyerni. Láttuk, hogy a tanuló eljárás értelmezhető úgy 15, mint egy, a mintapontokkal jellemzett rendszer 
egyfajta modelljének a létrehozása. A rendszerről egy olyan modellt szeretnénk megalkotni, melynek bemenet- 
kimenet kapcsolata minél inkább megegyezik a rendszer bemenetei és kimenetei közötti kapcsolattal. Ha a 
modellezési feladat valójában csak arra irányul, hogy a rendszer által megvalósított leképezést minél 
pontosabban adjuk meg, akkor ún. fekete doboz modellezési feladatról beszélünk. A fekete doboz modellezésnél 
nem törekszünk arra, hogy a modell felépítése kövesse a rendszer felépítését, csupán azt célozzuk, hogy kívülről 
nézve, tehát adott bemenetekre kapott válaszokat tekintve a modell minél inkább úgy viselkedjen, mint a 
modellezendő rendszer. 


A fekete doboz modellezésnél ennek megfelelően nem használunk a rendszer belső felépítését tükröző 
ismereteket, kizárólag összetartozó bemeneti és kimeneti adatokból, mintapontokból történik a modell 
létrehozása. 


öt Alt a 


modellben megjelenő szabad paraméterek értékeit. A struktúra rögzítése egy modellosztály rögzítését jelenti, 
mely modellosztályba tartozó konkrét modellek a szabad paraméterek meghatározása útján nyerhetők. 
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Neuronhálóknál a modell struktúráját a háló típusa és mérete határozza meg. Ezek rögzítése után a háló tanítása 
a szabad paraméterek meghatározását jelenti. 


Mint azt az 1. fejezetben láttuk, egyes neuronháló architektúrák univerzális approximátorok, vagyis alkalmasak 
meglehetősen általános bemenet-kimenet leképezést megadó függvények tetszőleges pontosságú közelítésére. A 
megfelelő pontosságú approximáció a háló méretének a megválasztásával és a szabad paramétereknek a 
meghatározásával biztosítható. A háló struktúrájának — típusának és méretének — a meghatározása általában nem 
része a tanulási folyamatnak, a tanulás a szabad paraméterek meghatározására szolgál. Valójában tehát a tanulás 
során egy paraméterbecslési feladattal állunk szemben (2.9 ábra). 


A paraméterbecslés során mindig valamilyen cél elérése vagy kritérium teljesítése érdekében kívánjuk az 
, Optimális"? paraméterértékeket meghatározni. A tanulási eljáráshoz ezért elsődlegesen egy célfüggvényt vagy 
kritériumfüggvényt kell megfogalmaznunk. A kritériumfüggvény a modell minőségének a mérésére szolgál, 
tehát az előzőekben megfogalmazott kockázat épp ilyen kritériumfüggvény szerepet tölthet be, és a kockázat 
minimalizálása lehet az eljárás célja. A tanulás tehát egy paraméterbecslési eljárásként 15 felfogható, amikor 
adott modell struktúra mellett az ismeretlen paramétereket a mintapontok alapján egy kritériumfüggvény 
szélsőértékének (általában minimumának) elérése érdekében határozzuk meg. 


A kritériumfüggvény, továbbá a rendelkezésünkre álló egyéb információ alapján különböző paraméterbecslési 
eljárásokról beszélhetünk. Amennyiben a kívánt és a tényleges válaszok közötti eltérés négyzetét tekintjük 
hibafüggvénynek (veszteségfüggvénynek) és az ebből származtatott tapasztalati kockázat minimumát biztosító 
paramétereket szeretnénk megkapni, legkisebb átlagos négyzetes hibájú (LS) becslésről beszélünk. 


LS becslésnél a megoldás a 
Z 


1 
C(w) [d — few,x)y 
£ 5 (2.36) 


kritériumfüggvény minimumát biztosító paramétervektor (a keresett paramétervektor becslése: W ). A megoldás 
tehát 


Wis —marg min Ü(w! 
hi 


: (2.37) 


Látható, hogy "5 a (2.16) összefüggéssel definiált tapasztalati kockázat minimumát biztosító paramétervektor, 
ha négyzetes veszteségfüggvényt alkalmazunk. Az LS becslő a megfigyeléseken kívül semmilyen további 
információt nem használ fel a becslés meghatározásához. 


Az adataink, a megfigyelések azonban általában zajosak. Zajos kimenet mellett a bemenet-kimenet leképezést 
egy da-glag)tn kapcsolat írja le (Id. 2.9 ábra). Ha az " megfigyelési zaj statisztikai jellemzése 15 ismert, a 


paraméterbecslésnél már valószínűségi megközelítés is alkalmazható. A zaj hatását a p(d lk) feltételes 
sűrűségfüggvénnyel írhatjuk le. Az adatok alapján a g(x) leképezést kívánjuk becsülni, ahol a becslést a modell 


jú -fÚx §) leképezése jelenti. Adott x mellett a modell y válasza tehát az f függvénytől (és annak w 
paramétervektorától) függ. A becslés jóságának mérésére ezért felhasználható a 


pill. Xi al d... . dpi 7 ús [w) 
[d [fs ) 


job 
-TIe [d ba, fex bv) zés) 


(2.38) 


2.9. ábra - A tanulás, mint paraméterbecslési eljárás 
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feltételes sürüségfüggvény, amely megadja, hogy az (andy) hxada) eled) tanító mintapontok milyen 


valószínűséggel lennének kaphatók, feltéve, hogy a közöttük lévő kapcsolatot egy adott J telw) függvény írja 
le. Mivel a megfelelő f függvény (illetve a w paramétervektor) meghatározása a cél, és ÉG) nem függ f-től, 


továbbá, ha a bemeneteket egyenletes eloszlással generáljuk, GJ a (2.38) kifejezés jobb oldalából el 15 
hagyható. Gyakorlati szempontok miatt a szorzat helyett annak negatív logaritmusával érdemes dolgozni. Az így 
kapott 


f3 
£6)-— in pld he , 7(x Ív ) 
in] (2.39) 


10g-likelihood függvény képezi a maximum likelihood (ML) becslés kritériumfüggvényét [L]1u99]. 


A maximum likelihood (ML) becslés olyan paraméterértékeket keres, melyek mellett a rendelkezésre álló 
megfigyeléseink a legnagyobb valószínűségűek. 


Wong — arg max eíw) 
a 


(2.40) 


A valószínűség mértékét a paramétervektor függvényében a (log-)likelihood függvény adja meg. A likelihood 
függvény tehát a megfigyeléseink hihetőségének a mértékeként is értelmezhető. Az ML becslés alapgondolatát 
illusztrálja a 2.10 ábra. 


Az ábra azt mutatja, hogy hogyan befolyásolja a paraméterevektor megválasztása a megfigyelések eloszlását. 
Azt a paramétervektort fogadjuk el ML becslésnek, mely mellett az aktuális megfigyelésünk (megfigyeléseink), 
(az ábrán d) a legnagyobb valószínűségűtek). 


A paramétereink tekinthetők valószínűségi változóknak 15. Amennyiben ezen valószínűségi változók eloszlása 
(sűrűségfüggvénye) ismert, származtatható a Bayes becslés, amely abból indul ki, hogy az ismeretlen 
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paraméterről van a priori! ismeretünk, adott a paraméter ún. a priori eloszlása. Az a priori sűrűségfüggvény azt 
adja meg, hogy a keresett paraméter a megfigyelésekből származó ismeretek hiányában a paramétertérben 
milyen értékeket milyen valószínűséggel vehet fel. 


A becslési eljárás célja, hogy a paraméterről az ismereteinket pontosítsuk a megfigyelések felhasználásával. 
Minthogy valószínűségi változóról van szó, a 


2.10. ábra - A maximum likelihood becslés 


pldwi) pidíw ut ) pidwr) 


- 
rna 


d mérési adat 


pontosítás a paraméter eloszlásának pontosítását jelenti. A pontosított eloszlás a megfigyelések felhasználása 
után nyert eloszlás, amit a postertori eloszlásnak hívnak. Az a priori és az a posteriori eloszlásokat a Bayes 
szabály kapcsolja össze: 


piímegfigyelések w ipiw ) 


p(Gy megtigyelések ) — - 
pimegtfigyeléseki (2.41) 


ahol 


PÉN) a paraméter a priori! (a megfigyelések előtti) sürüségfüggvénye, 


pimegfigyelések) a kapott megfigyelések (tanító adatok) sűrűségfüggvénye, 


pw megfigyelések ) az a postertori (a megfigyelések által szolgáltatott ismereteket 15 figyelembevevő) 


sűrűségfüggvénye, és 


pímegfigyelések [w ) egy olyan feltételes sűrűségfüggvény, amely azt jellemzi, hogy az adott megfigyelések 
milyen eloszlásúak, feltéve, hogy azt a w paraméterű modell generálta. 


A Bayes becslés az a posteriori sürűségfüggvény meghatározására vezet. Amennyiben az ismeretlen 
paraméterről hordoznak információt a megfigyelések (a tanító mintapontok), akkor az a postertori 
sűrűségfüggvény a konkrét paraméterérték szükebb környezetére terjed ki (2.11 ábra). 
Az a postertori sűrűségfüggvény felhasználásával felírható a Bayes kockázat: 
Ríw)- [ Eízwpiw,z) dzdw 

kai (2.42) 


ahol p(w,z) a paramétervektor és a megfigyelések együttes sűrűségfüggvénye. A keresett paramétervektor Bayes 
becslése a Bayes kockázat minimalizálása útján határozható meg: 


Waves — arg min AL ) 


(2.43) 
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Az a postertiori sűrűüségfüggvény a megfigyelések figyelembevételével a keresett paramétervektor teljes 
statisztikai leírását adja. A teljes statisztikai ismeretre azonban nincs mindig szükség (ráadásul az a posteriori 
sűrűségfüggvény meghatározása általában meglehetősen nehéz 15), ezért célszerű, ha a lehetséges értékek közül 
egyet kiválasztunk, és azt tekintjük a Bayes becslésnek. Leggyakrabban ez az a postertori sűrűségfüggvény 
maximumához tartozó paraméterérték, amit ezért maximum a posteriori vagy MAP becslésnek is szokás 
nevezni. A MAP becslés tehát szintén megfogalmazható szélsőérték-keresési problémaként: 


Warp Arg max pw megfigyelések) 
a 


. (2.44) 


A Bayes becslés az előző becslési eljárásoknál több információt használ fel. A paraméter sűrűségfüggvényét a 
legtöbb esetben nem ismerjük, így ilyenkor vagy feltételezéssel élünk (pl. Gauss sűrűségfüggvényt tételezünk 
fel) vagy a Bayes becslést nem alkalmazhatjuk. 


2.11. ábra - Az a priori és az a posteriori sűrűségfüggvények alakulása 
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A neuronhálók nagy többségénél a tanulás LS becslést jelent, hiszen egy négyzetes hibafüggvény minimumát 
biztosító paraméterértékek meghatározása a cél. Amennyiben a hálóhoz, illetve az általa megvalósított 
leképezéshez valószínűségi modell 15 rendelhető, maximum likelihood vagy Bayes becslésként értelmezhető a 
tanulási folyamat. A valószínűségi megközelítések azzal az előnnyel járnak, hogy az eredmény optimalitásáról 
határozottabb állítások fogalmazhatók meg, illetve eredményként nem csupán a paraméterek értékét kapjuk 
meg, hanem ezen értékekhez egy konfidenciaintervallum is rendelhető, így valójában az eredményeknek 
valamilyen minősítése 15 megtörténik. 


5. Determinisztikus és sztochasztikus szélsőérték- 
kereső eljárások 


Az eddigiekben láttuk, hogy a tanulás során egy kritériumfüggvény vagy a kockázat funkcionál szélsőértékét 
keressük, vagyis azt a w értéket, ahol a kritériumfüggvény extremális értéket vesz fel. Szemléletesen a 
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kritérriumfüggvény a paramétertér felett egy felülettel jellemezhető — ezt szokás kritérriumfelületnek vagy 
hibafelületnek 15 nevezni —, és ennek a felületnek a minrmumához vagy maximumához tartozó paraméterérték 
meghatározása a cél. A tanuló eljárások tehát valójában szélsőérték-kereső eljárások. 


A szélsőérték-kereső eljárásoknak egész tárháza áll rendelkezésre, és ezen eljárások szinte mindegyikét 
alkalmazzák 15 a neuronhálóknál. Adott neuronháló tanításánál az eljárások széles választékából a megfelelő 
eljárás kiválasztása számos körülménytől, bizonyos feltételek teljesülésétől vagy hiányától függ. Az egyes 
eljárások alkalmazhatóságát döntően befolyásolja a kritériumfüggvény jellege. A kritériumfüggvény jellegét 
egyrészt a veszteségfüggvény, másrészt a tanuló rendszer leképezésének a keresett paraméterektől való függése 
határozza meg. Kiemelten fontos, ha ez utóbbi kapcsolat lineáris. Ebben az esetben a leggyakrabban alkalmazott 
négyzetes veszteségfüggvény mellett a kritériumfüggvény a keresett paraméter kvadratikus függvénye, ami — 
megfelelő feltételek fennállta estén — biztosítja az egyértelmű szélsőérték létezését. 


A továbbiakban az egyszerűbb tárgyalás lehetőségének kedvéért általában minimumkeresésről fogunk beszélni, 
de az eredmények értelemszerűen érvényesíthetők maximumkeresés estére IS. 


Ha a kritériumfüggvény a keresett paraméter folytonos és differenciálható függvénye, a minimumkeresés során 
azt a w" értéket keressük, ahol a kritérriumfüggvény w szerinti gradiense zérus. A gradiens alapú szélsőérték- 
kereső eljárásoknak kiemelten fontos szerepük van a neuronhálók tanításánál. Ha gradiens módszerek nem 
alkalmazhatók, vagy a gradiens analitikus vagy numerikus meghatározása túl bonyolult, kereső eljárásokkal 
lehet a minimumhelyet meghatározni. A kereső eljárások általában nem tételeznek fel semmit a 
kritériumfüggvényről. A keresés során valamilyen véletlen vagy determinisztikus algoritmus szerint 
feltérképezik a W paraméterteret, miközben kiértékelik a hibafelületet. A megoldást a megfelelő szélsőértékhez 
tartozó w" jelenti. 


5.1. Gradiens alapú szélsőérték-kereső eljárások 
Gradiens alapú eljárásoknál a 


BC a 
B (2.45) 





VI Cíwai] 


i KT ; VICC -0 
feltételt biztosító paraméter meghatározása a cél. A Cl) kritériumfüggvény. ismeretében a L ív) ] 


megoldása a keresendő paraméterre nézve explicit kifejezést eredményezhet. Ekkor analitikus eredményt 
kapunk. 


Az analitikus kifejezés meghatározása azonban bonyolultabb esetekben, különösen, ha a kritériumfüggvény a 
keresett paraméter nemlineáris függvénye, komoly matematikai nehézségeket okozhat. Sok esetben a 
kritériumfüggvényre analitikus kifejezés nem 1s adható. Ezekben az esetekben iteratív eljárások alkalmazhatók, 
ahol a tanuló rendszer paramétereit valamilyen algoritmus szerint addig változtatjuk, amíg a kritériumfüggvény 


i ; s. VICC GŰ 
minimumát el nem érjük vagy kellő mértékben meg nem közelítjük; vagyis Itt a L Al összefüggésnek 
megfelelően jutunk a megoldáshoz. 


A tanuló eljárások konstrukciója döntően ilyen algoritmusok kidolgozását jelenti, ahol az iteratív eljárás során a 
mintapontok nyújtotta információt fokozatosan, sok esetben a mintapontok többszöri, ismételt alkalmazása útján 
használjuk fel. Az iteratív szélsőérték-kereső eljárásoknak 15 igen széles skáláját dolgozták ki, igazodva a 
különféle feltételekhez és az eltérő kritérriumfüggvényekhez. Ezek nagy részét neurális hálózatoknál is 
alkalmazni szokták. Leggyakrabban azonban azokat az eljárásokat alkalmazzák, ahol az egy iterációhoz 
szükséges műveletek száma viszonylag kicsi, és ahol a műveletek egyszerű számításokat igényelnek. A 
számítások egyszerűségén kívül további követelményeket 15 ki kell elégíteniük az eljárásoknak. 


A fontosabbak követelmények: 
e legyen az eljárás konvergens, 
e a konvergencia sebessége legyen minél nagyobb, 


e az eljárás a kritériumfüggvények által meghatározott hibafelületek széles körére, vagyis a feladatok széles 
osztályára legyen alkalmazható. 
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A követelmények kielégítése neurális hálózatoknál különösen nehéz, hiszen a szélsőérték-kereső eljárások 
többségénél a konvergencia csak kvadratikus vagy konvex kritérium-felület mellett bizonyítható és neurális 
hálózatoknál ezt a feltételt a kritériumfelületek csak kivételes esetben teljesítik. 

A neuronhálók döntő többsége nemlineáris bemenet-kimenet leképezést valósít meg. A nemlineáris leképezés a 


háló paramétereinek szerepét tekintve többféleképpen megvalósítható: a leképezés lehet paramétereiben lineáris 
vagy nemlineáris. Az előbbi esetben a kapcsolatot 


y-w elxi (2.46) 

alakban, az utóbbiban 

V-VN,X) (2.47) 

formában írhatjuk le, ahol mind pl.) , mind yw(.) valamilyen nemlineáris függvényt jelöl. 

5.1.1. Szélsőérték-keresés paramétereiben lineáris modellek esetén 

A paramétereiben lineáris modellek a neuronhálók témakörén belül 1s kitüntetett fontosságúak. Ekkor, továbbá, 
ha négyzetes hibafüggvényt alkalmazunk, kvadratikus hibafelületet kapunk, amelynek a minimumpontjához 


tartozó paramétervektor meghatározása a cél. 


A négyzetes hibafelületre vonatkozó eljárásokat és eredményeket az 


r 
H-W A (2.48) 


lineáris kapcsolat feltételezésével fogjuk megvizsgálni, de az eredmények értelemszerűen alkalmazhatók a 
(2.46)-ben megfogalmazott általánosabb kapcsolat esetére 1s. 


Ha kritériumként az átlagos négyzetes hibát tekintjük, a minimalizálandó összefüggés: 


Ölje fej) (2-wxj") 
- E(d31—2E[ do jwáw Elza hw 


— zi dő] —2p wtw Bu, (2.49) 


R- Efxx I . - I I 
ahol ; j a bemenet autokorrelációs mátrixa, F El dx] pedig egy olyan oszlopvektort jelöl, amely a 
kívánt kimenet és a bemenet közötti keresztkorrelációt mutatja. 


A szélsőérték a C(w) négyzetes hiba w szerinti 





VC (wr- E Sw aie 
ei , (2.50) 
parciális deriváltjának nulla értékéhez tartozik, amelyből — amennyiben R7 létezik — az optimális 


paraméterkészlet a Wiener-Hopf egyenlet szerint határozható meg: 
w"- Rp. 2.51) 


A (2.51) összefüggés szerint az átlagos négyzetes hiba minimumát biztosító megoldásvektor analitikusan 15 
meghatározható, ha a d; kívánt válaszok és az x; bemenetek statisztikai jellemzői, R és p ismertek, ami a 
gyakorlatban a legritkább esetben teljesül. Ha csak a mintapontok állnak rendelkezésünkre, az analitikus 
összefüggés alkalmazásához előbb R-et és p-t a véges számú mintapont alapján becsülnünk kell. Ennek, 
továbbá a (2.51) összefüggés szerinti mátrix invertálásnak az elkerülése érdekében a továbbiakban olyan 
módszereket fogunk vizsgálni, amelyek vagy eleve kevesebb ismeret meglétét igénylik, vagy amelyek a 
tanítópontokból iteratív úton igyekeznek minél több ismeretet összegyűjteni (pontosítani). 
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Mielőtt azonban ezekre rátérnénk, a [Wid85] irodalmat követve bemutatjuk a fentiekben vázolt, ideálisnak 
tekinthető megoldás néhány lényeges tulajdonságát. 


Először a (2.51) összefüggést a (2.49) hibakifejezésbe helyettesítve megkapjuk az elérhető négyzetes hiba 
minimumát: 


s z] .fmn-L 2] Xs 
Can -E(d1-p Rp - E[dő1-piw 02.52) 
Sokszor előnyös, ha egy paraméter tényleges értéke helyett az ideális paraméter-értéktől való eltéréssel, azaz a 


paraméter-hibával dolgozunk. Ezért alakítsuk át ennek megfelelően a (2.49) összefüggést (2.52) 
felhasználásával. A hiba 


CWw- Cam tév—-wYRíw-wy -OnatviRv (2.53) 


alakba írható, ahol v—Ww—w". A (2.53) összefüggés jól mutatja, hogy a kritériumfüggvény a W paramétertér 


felett egy kvadratikus hibafelülettel jellemezhető, amelynek — ha R pozitív definit — a W —w" mellett 
minimumpontja van. 


A (2.49) és a (2.53) összefüggésekből kundulva ebben a formába 1s felírható a gradiens vektor: 


voÍv]- ESA] —- 2Rv—- 2Ríw—w )— zlRw—npi 


Öv (2.54) 


5.1.2. A négyzetes kritériumfüggvény tulajdonságai 


Az átlagos négyzetes hiba (2.53) szerinti összefüggése tömör formában jelzi, hogy a kritérrumfüggvény 
paraboloid hibafelületet ír le, melynek jellemzőit az R mátrix határozza meg. Ebből egyértelműen arra a 
következtetésre juthatunk, hogy a (2.49) összefüggéssel definiált hiba a négyzetes jelleg megtartása mellett csak 
a bemeneti jeltől, pontosabban annak korrelációs mátrixától függ. A későbbiekben látni fogjuk, hogy a 
szélsőérték-kereső eljárások hatékonyságát befolyásolják a hibafelület tulajdonságai — a hibafelület alakja —, 
ezért ezzel a kérdéssel most kiemelten foglalkozunk. 


Elsőként — kétdimenziós paramétertér feltételezése mellett — gondolatban rajzoljuk fel a paraméterek síkján a 
(2.53) összefüggés szerinti hibafelület "szintvonalait". A szintvonalak — az ún. izokritérium görbék — egy 
görbesereget alkotnak. A görbesereg egy eleme — egy izokritérium görbe — azon pontok mértani helyét adja 
meg, amelyekhez (egy adott) állandó kritériumfüggvény-érték tartozik. Minden ilyen görbe egy-egy ellipszist 
jelöl ki, amely a síkban általános helyzetben (de egymáshoz képest kötötten), helyezkedik el a sík koordináta 
tengelyeihez képest. Egy ilyen ellipszis előállítható úgy 15, hogy a paraboloid hibafelületet egy, a paraméterek 
síkjával párhuzamos, ettől a síktól a rögzített négyzetes hiba értéknek megfelelő távolságra lévő síkkal 
elmetszünk. Különböző hibaértékekhez különböző, de koncentrikus, azaz olyan ellipsziseket kapunk, melyek 
főtengely irányai egybeesnek (Id. 2.12 ábra). Ez a geometriai kép tetszőleges dimenzióra általánosítható. 
Könnyen belátható, hogy a metszék-ellipszíisek (ill. ellipnszoidok) főtengelyei kitüntetett irányok. A hibafelület 
ezen irányokban található bármely pontjánál ugyanis a gradiens irányok egybeesnek a főtengely irányokkal, 
azaz mindig a középpont felé mutatnak. Így ezen pontokból kiindulva a gradiensek mentén közvetlenül a 
középpont felé mozoghatunk, illetve ennek megfelelően a hibafelületen a minimumhely felé "ereszkedhetünk". 
A mértani helyet tovább vizsgálva arra az érdekes következtetésre juthatunk, hogy a főtengely irányokat az R 
mátrix sajátvektorai jelölik ki, tehát a későbbiekben jól felhasználható eredményre vezet az R mátrix 
sajátérték/sajátvektor rendszere. Ha feltesszük, hogy a sajátértékek multiplicitása egy és az R mátrix egy NXN- 
es mátrix (N a bemeneti vektorok dimenziója), akkor R felírható az alábbi formában 


R—G AG" (2.55) 


ahol A 7 diag (AorAr rol ara a sajátértékekből képezett diagonál mátrix, 0 pedig a sajátvektorok mátrixa. Ha a 


sajátvektorokat egységnyi hosszúságúra normáljuk, és felhasználjuk azt a tulajdonságot, hogy a szimmetrikus 
négyzetes mátrixok sajátvektorai ortogonálisak (vagyis OC ortonormált), akkor: 


07-00", azaz ROAD. (2.56) 
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Behelyettesítve a (2.56) kifejezést a (2.53) összefüggésbe, a hibára 


CÍvJ—- Cin tvr Rv-Cunvő [DAAD] v- Cin r(o7vj AlO/v]- 
öli (2.57) 


adódik. Az új kifejezésben v"-t egy forgatási transzformációval kaphatjuk meg v-ből, amit értelmezhetünk úgy, 
hogy a hibafelület "alatt" elforgattuk a paraméterek koordináta-rendszerét olyan mértékben, hogy a 
koordinátatengelyek éppen főtengely irányúak legyenek. Ebben a koordinátarendszerben a (2.54) 
összefüggésnek megfelelő gradiens vektor a következőre adódik: 


vegy- ED 2Aw — 2 An JE asz Álayzia] 
EEG (2.58) 
2.12. ábra - Az izokritérium görbék az eredeti és a sajátvektor irányú 


koordinátarendszerekkel 





Wn 


A gradiens komponensei tehát a megfelelő sajátértékek és a paraméterhiba-komponensek szorzataként 
számíthatók. A sajátértékekhez szemléletes jelentés 15 rendelhető, ugyanis a főtengely-irányokban számított 
második derivált komponensek az R mátrix sajátértékeinek kétszeresei lesznek: 


. f 
E 96. 
8 v, . (2.59) 


Mindezekből képet alkothatunk a paraboloid hibafelület geometriai tulajdonságairól. Ha a bemeneti jel 
autokorrelációs mátrixának sajátértékei jelentősen eltérnek egymástól, akkor a paraboloid hibafelület a 
különböző főtengely irányokban is jelentősen eltérő meredekségű lesz. Ez a tulajdonság — mint látni fogjuk — 
általában kedvezőtlen az ún. gradiens-alapú szélsőérték-kereső eljárások szempontjából. A 2.12 ábra nemcsak a 
hibafelületet jellemző izokritérium görbéket, hanem a w, v és v" koordinátarendszereket 15 mutatja. 


4 


5.1.3. Szélsőérték-keresés Newton módszerrel. 
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Ha a gradlens 


VO(wj-2RÍw—w"] 


(2.60) 
1 R! 
szerinti felírását balról megszorozzuk £ -gyel, akkor átrendezés után a 
uja l -1 
w —w—-—R Vérwi 
2 (2.61) 


alakot kapjuk, amely négyzetes hibafelület esetén tetszőleges kiunduló w mellett közvetlenül megadja az 
optimális megoldást. 


Ha a hibafelület nem négyzetes, a (2.61) összefüggés akkor is alkalmas kiindulás egy iteratív eljárásra. (Nem 
kvadratikus függvényeknél tekinthetjük úgy, mintha ezek másodfokú Taylor-sorával dolgoznánk, annál 1s 
inkább, mivel a megoldás — a minimumhely — közelében a nem másodfokú függvények jó közelítéssel úgy 
viselkednek, mint a négyzetes függvények.) Az iteratív eljárásoknál lépésenként módosítjuk a megoldást: az épp 
érvényes megoldásból kundulva, annak korrekciójával kapjuk a következő lépés érvényes megoldását. 


A Newton eljárás iteratív összefüggése, ha az egyes iterációs lépések indexét k-val jelöljük 


we we RIVOwK) (2.62) 


ahol VClk)- Ve [w(k)) a gradiensvektort jelöli a k-adik lépésben érvényes paramétervektor mellett, míg 0 € u 


aZ 1 az ún. tanulási tényező (learning rate), amelyet négyzetes esetben az egylépéses konvergenciához 1/2-re 
kell választani. Megjegyezzük, hogy a u tanulási tényezőt bátorsági tényezőnek 15 szokás nevezni, mivel értéke 
befolyásolja, hogy adott gradiens irányában mekkora lépésekben haladunk. Ha az utóbbi összefüggésben 
visszaírjuk a derivált (2.60) szerinti alakját, és mindkét oldalból levonjuk w"-ot, akkor a 


w (41 wt (1-2 Íw(k—w]-(1— 240)" (w(0)—w"), (2.63) 


összefüggést, illetve az ennek megfelelő 


v(k1)- (12) v(0) 2 64) 


iterációs kapcsolatot kapjuk, amely konvergens, ha 0 € u — Il, és négyzetes hibafelületnél egy lépésben 


optimumot ad, ha 7 [2 


ay 


5.1.4. Szélsőérték-keresés a "egmeredekebb lejtő" (steepest descent) 
módszerével 


Ez a módszer a negatív gradiens irányában "ereszkedik" a hibafelületen. Iteratív összefüggése: 


w (er) -w(kj-te(- VO). (2.65) 


A (2.65) összefüggésben a fentiekhez hasonlóan visszaírva a gradiens (2.60) szerinti alakját, és ismét mindkét 


oldalból levonva -ot, a 


w(eD-wt-(T-24R) [wd-w)-(I-24R) " (w(0-w") 266 


illetve az ennek megfelelő 


vik 41 - (T—2e RV ví 0] (2.67) 


48 
XMLmind XSL-FO Converter 


Tanulás adatokból 


összefüggést kapjuk. Ez utóbbi kifejezésből látható, hogy ennél az eljárásnál a u tanulási tényező megválasztása 
függ R-től. Ha áttérünk a főtengely-irányú koordinátákra, mint ahogy azt korábban a (2.57) összefüggésben 
tettük, akkor (2.67) helyére a 


vk -T-2K AP (0 2.68) 


összefüggés írható, amely lehetővé teszi, hogy a paraméter-hibákat komponensenként vizsgáljuk. A (2.68) 
összefüggésből jól látható, hogy a konvergencia feltétele ekkor: 


ahol ha R legnagyobb sajátértéke. 


A (2.62), és (2.65) összefüggések összevetéséből látszik, hogy a Newton módszer szerinti iterációban 
elkerülhetetlen R ismerete, míg a gradiens menti iteráció R ismeretét közvetlenül nem igényli. A 4 tanulási 
tényező helyes megválasztásához azonban mégis kell valamennyi ismeret a bemeneti jelről. Sokszor megfelelő a 


TNS A trrAjktr(R] 
1 (2.70) 


összefüggés használata, amellyel a 





NEG ös 
tri Rk) (2.71) 


előírás adódik, ahol tr(R), az autokorrelációs mátrix nyoma, amelyet a mintapontokból az alábbi módon 
becsülhetünk: 


Fi 1 f3 
tréRi sz HA ni K 
melő det (AZ /2) 


Itt x; az i-edik bemeneti vektor j-edik komponense (i—1, 2, ..., I ; J-l, 2, ..., N). A tanulási tényező 
megválasztása a szélsőérték-keresés igen kritikus lépése, mert közvetlenül befolyásolja az eljárás stabilitását, 11. 
a konvergencia sebességét. 


A (2.69) összefüggésből látható, hogy a konvergencia sebessége a bemeneti jel korrelációs mátrixától, 
pontosabban annak sajátértékeitől függ. Az is látható, hogy az eljárás konvergenciájának biztosításához a 
tanulási tényezőre felső korlát adható. A felső korlát azonban valóban csak a konvergencia tényét garantálja, 
miközben az eljárás gyakorlati alkalmazása szempontjából a konvergencia sebessége 1s fontos. 


Az előzőekben láttuk, hogy a A sajátértékekhez szemléletes jelentés 15 rendelhető. A paraboloid hibafelület 
főtengely irányait R sajátvektorai adják meg. Az i-edik sajátvektor, a; irányában a hibafelület második deriváltja 


viszont arányos a sajátvektorhoz tartozó A sajátértékkel. Minél nagyobb egy sajátérték, annál nagyobb a 
hibafelület adott irány menti meredekség-változása, azaz a görbülete. A konvergenciára vonatkozó (2.69) 
összefüggés a konvergencia tényét még a hibafelület legmeredekebb iránya mentén is garantálja, viszont más 
irányok mentén még nagyobb 4 mellett 15 garantált lenne a konvergencia. A főtengely irányok mentén az adott 
sajátvektorhoz tartozó sajátérték reciproka jelenti a konvergenciát még biztosító tanulási tényező felső korlátját. 


A (2.69) által megfogalmazott korlát betartása azért szükséges, mert általában nem ismerjük, hogy a hibafelület 
mely pontjából indulunk ki, így a konvergencia csak akkor garantálható, ha az a kiindulási ponttól függetlenül 
minden körülmény mellett fennáll. A hibafelület kevésbé meredek részein a túl kis tanulási tényező ugyanakkor 
a lehetségesnél kisebb konvergencia-sebesség elérését eredményezi. A konvergencia-sebesség szempontjából 
tehát az a kedvező, ha a sajátértékek egyformák vagy közel azonosak, vagyis ha A 51. Különösen kedvezőtlen 


esettel állunk szemben, ha a legkisebb és a legnagyobb sajátértékek aránya, Ana han 721] Ez egy keskeny 


hibafelületet jelent. Keskeny hibafelületnél kedvezőtlen kunduló pont mellett a konvergencia nagyon lassú 15 
lehet. 
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Felmerül a kérdés, hogy ilyen esetekben lehet-e valami olyan módosítást tenni, ami a konvergencia-sebesség 
növelését eredményezi. A válasz pozitív. Ha a bemeneteket olyan módon transzformáljuk, hogy a transzformált 
bemenetek autokorrelációs mátrixa közel egységmátrix, a sajátértékek közel egyformák lesznek, így 
kundulóponttól függetlenül a legkedvezőbb tanulási tényező választható. Ennél a megoldásnál a legmeredekebb 
lejtő gradiens eljárást a , transzformált" térben végezzük. A módszer részletesebb bemutatását a későbbiekben a 
transzformált tartománybeli LMS eljárásnál adjuk meg. 


5.1.5. A konjugált gradiensek módszere 


A (2.51) összefüggés a w paraméterekre nézve egy lineáris egyenletrendszer megoldása, amelyhez az R mátrix 
inverze szükséges. Az 


Rw -Dp (273) 


egyenlet megoldása egyszerűsíthető az ún. konjugált irányok ismeretében. A konjugált irányokat azok a 


docAuthor] vektorok jelölik ki, amelyekre fennáll, hogy 


gi Rg,—Ű, izg. (2.74) 
Könnyen belátható, hogy a 14] vektorok lineárisan függetlenek és egy olyan bázist alkotnak, amely kifeszíti a 


hw) paraméterek terét, így segítségükkel előállítható a paraméterek terének az a vektora is, amely a "" 


vektorból elvezet a W" vektorba: 
7-1 
wo —wg- 2 a a. 
40 (2.75) 
Itt Lay] a lineáris kombináció súlytényező készletét jelöli. Ha a (2.75) összefüggés mindkét oldalát 
T uja 
megszorozzuk balról 4g Bel és Rw helyére behelyettesítjük p-t ((2.73) alapján), akkor a konjugált irányok 
(2.74) feltétele miatt az "7 re nézve N-ismeretlenes lineáris (2.75) egyenletrendszer "szétesik", és "2 ek 
közvetlenül megadhatók lesznek (és egyben nyilvánvalóvá válik a konjugált g vektorok használatának az előnye 
15): 
a. 1712 R(0)) 
7 — 
17 Ra; 2.76) 


Ezek után definiálhatunk egy iteratív eljárást w(k-1-1) számítására: 


17 [1] -Ww [oj Hár Ük: (2.TT) 


ahol 
k-I 

wlde) -w[014-5 Gt s ÉS wild] —-—w , 
Je (2.78) 


tehát N lépésben elérjük az optimumot. 


A (2.77) összefüggésben szereplő 6 tényező egy alternatív kifejezése nyerhető, ha felhasználjuk a (2.74) és 
(2.78) összefüggéseket annak igazolására, hogy 


ga Rw(k) - gy Rwí01. (2.79) 


Ekkor ugyanis a (2.76) összefüggésben w(0) w(j)-re cserélhető, és így (2.60) felhasználásával 
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o. 1aG VOL) 
sali VESS 
2 4; Ra; (280) 


yi 


adódik. 

(ai esszék kasza ák vENKNNNE ENNE ; re settle s ússz gt Ügy VETT 
A 8" konjugált gradiens irányok meghatározása iIteratívan történik úgy, hogy a kezdőérték , azaz 
a kezdőpontban érvényes negatív gradiens adja a legelső irányt, majd a következő irányok rendre az aktuális 
gradiens és a megelőző irány lineáris kombinációjaként kerülnek kiszámításra: 


Ű ka] --VCÍkár114 6 Űr: (2.81) 


Ha ezt a kifejezést jobbról megszorozzuk Ra, -val, megkapjuk A ahhoz szükséges új értékét, hogy az új irány 
konjugált irány legyen: 


VC" (kr Rg, 


A gú Rag (2.82) 


Mivel (2.60) és (2.77) felhasználásával 


VC(k41)-VO[)- az Rap, (283) 


a (2.82) összefüggésből Ra, kiejthető és így A-ra a következő kapható 


. ve" (DÍ VOÍK411—VOÍ[kÁ] 


a (VO(k-r1)-VO(K]]) ogy 


Az algoritmus tehát a kezdőpontbeli negatív gradiens, mint kezdeti irány választása mellett számolja az új 
paramétert a (2.77) egyenlet szerint úgy, hogy olyan 2k értéket vesz, melynél a hibakritérium értéke minimális 
(az 5 szerinti derivált nulla; ún. vonalmenti keresés, line search módszer). Erre azért van szükség, mert az 
esetek többségében R ismeretének hiányában k (2.80) alapján nem számolható közvetlenül. Ezután az új 


paraméterhez tartozó gradienst számítjuk, amelynek birtokában (2.82) alapján új A -t határozunk meg. Ezzel az 
új irány (2.81)-ból számítható. 


Meg kell jegyezni, hogy a A együtthatók meghatározására léteznek egyéb módszerek is, melyek más 
kifejezésre vezetnek. Ennek jelentősége abban rejlik, hogy azon esetben, ha az egymás után következő 
gradiensek különbsége nullává válik (vagyis az (2.84) szerinti összefüggés használhatatlan lesz a nevező nullává 


válása miatt), a konjugált gradiens módszer akkor is használható a A -kra vonatkozó más kifejezés 


alkalmazásával. Vizsgálatokat végeztek annak meghatározására 15, hogy különböző feladattípusoknál a A.k 
meghatározásának melyik módszere a legjobb. 


A módszer fontos jellemzője, hogy kvadratikus, N-dimenziós kritériumfelület esetén a (2.78) összefüggés 
értelmében a konjugált gradiensek módszere N lépésben konvergál. A gyorsabb konvergencia annak tudható be, 
hogy minden egyes lépésnél a (2.77), (2.78) és (2.80) egyenletek által meghatározott új w(k) a (2.49) 
egyenletben definiált négyzetes hibafüggvényt minimalizálja w szerint az addigi irányok (ao, g:,....ax) által 
kifeszített altér felett. (Bizonyítható, hogy az algoritmus szerint számított gradiens irányok mindig merőlegesek 
a korábbi lépésekben meghatározott g irányokra. Ebből az ortogonaliításból pedig következik az előbbi 
kijelentés [Joh92]. Ezzel szemben a többi gradiens alapú eljárásnál, mint pl. a legmeredekebb lejtő módszernél, 
az új Irány menti minimalizálás "leronthatja" a korábbiak hatását. Ezt illusztrálja a 2.13 ábra, ahol a konjugált 
gradiens módszeren (c) kívül a legmeredekebb lejtő módszer esetére is láthatunk két példát. Amennyiben a 
lépésnagyság az egyes iterációknál kicsi (kis u tanulási tényezőt használunk), sok lépésben, de a trajektória (az 
ideális útvonal) mentén közelítjük meg a minimumhelyet (a), míg nagyobb lépésnagyság mellett láthatóan 
felesleges paraméterváltoztatásokra 1s sor kerül (b). 
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2.13. ábra - Példa konvergenciára "legmeredekebb lejtő" módszerrel a trajektória 
mentén (kis u mellett) (a), "legmeredekebb lejtő" módszerrel nagyobb 4 mellett (b); a 
konjugált gradiensek módszerével (c). 





Összefoglalva az algoritmus a következő iterációs lépésekből áll: 
1. Válasszunk egy kezdeti pontot: k—0, w(0), és határozzuk meg ebben a pontban a kritériumfelület gradiensét ( 
ve (0), 


voro) 40—7—-VCÍ0) 


2. Ha -0, szélsőértékre jutottunk, állítsuk le az eljárást, egyébként legyen 
3. Határozzuk meg a megfelelő lépésnagyságot ( ők ), és számítsuk ki az új súlyértéket (2.80)-nek, ill. (2.77)-nek 


megfelelően. Amennyiben R nem áll rendelkezésünkre, Sr (2.80) alapján nem határozható meg. Ilyenkor ők 


meghatározására azt a tényt használjuk ki, hogy megfelelő lépésnagyság választás esetén $§ irányban 
elmozdulva a kritériumfelületen feltételes szélsőértéket érünk el, vagyis: 


ay - arg min (elv [dei -k ag(4j] 


VC(ka1) 


4. Végezzük el a súlymódosítást, és az új pontban határozzuk meg az új gradiens, értékét. Ha 


ve (x-1) -0, állítsuk le, egyébként folytassuk az eljárást. 


5. A (2.81) és (2.84) összefüggések felhasználásával határozzuk meg az új konjugált irány, 1" értékét. 


6. Ha k-N, az eljárásnak vége, egyébként növeljük meg k értékét: k—k7-1, és folytassuk az eljárást a 3. lépéssel. 
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A konjugált gradiens eljárást, vagy az eljárás valamilyen változatát kedvező konvergencia tulajdonságai miatt 
gyakran alkalmazzák neuronhálók tanításánál. Egyes neuronhálóknál kedvelt az ún. momentum módszer, amely 
a konjugált gradiens eljáráshoz hasonló heurisztikus gradiens alapú eljárás. A hasonlóság abban áll, hogy a 
paramétermódosítás adott iterációbeli iránya Itt 15 a gradiens és az előző iterációban alkalmazott irány súlyozott 
összegeként határozható meg. A módosítás irányának meghatározása tehát itt ís a (2.81) összefüggéshez 
formailag hasonló módon történik, azzal a különbséggel, hogy a súlyozó együtthatók meghatározása nem (2.84) 
alapján, hanem tapasztalati úton történik. Ennek megfelelően a momentum módszer egyes lépéseiben használt 
irányok nem 15 lesznek konjugált irányok. A momentum módszerrel részletesebben a 4. fejezetben foglakozunk. 


5.1.6. Az LMS algoritmus és néhány változata 


Az eddigi eljárások mind a (2.49) összefüggésben definiált hibakritértumból, vagyis a négyzetes hiba várható 
értékéből indultak ki. A várhatóérték-képzés következtében a kapott eljárások közvetlen vagy közvetett 
formában igényelték az R autokorrelációs mátrix ismeretét. Neuronhálóknál általában a tanító mintapont- 
készleten kívül más ismeretünk nincs, így az autokorrelációs mátrix 15 csak a mintapontokból becsülhető. A 
becslés viszonylag nagy számításigénye, továbbá az R mátrixszal történő további műveletek számításigénye 
miatt hatékonyabb lenne egy olyan eljárás, ami R ismerete nélkül 15 alkalmazható. A Bernard Widrow által 
javasolt LMS (Least Mean Sguares) algoritmus épp ezt teszi. Az LMS algoritmus és az eddigi gradiens alapú 
eljárások közötti alapvető különbség az, hogy az LMS eljárás a (2.49)-ben definiált átlagos négyzetes hiba, mint 
kritériumfüggvény helyett a pillanatnyi hiba alapján dolgozik. 


Az LMS eljárásnál a hibakritériumot, mint a pillanatnyi hiba négyzetét definiáljuk: 


Cívekj- e (4) -[d(kj— ax [dj w (ej) (2.85) 


A pillanatnyi hiba alapján — gradiens módszert alkalmazva — a paramétermódosítás a kritériumfüggvény 
, pillanatnyi" gradiense alapján történhet. 


VO(k - - —2£ (k)x(k). 





(2.86) 


Az LMS eljárás alapgondolata tehát az, hogy az átlagos négyzetes hiba helyett a pillanatnyi négyzetes hibából 
indulunk ki. Természetesen meg kell vizsgálnunk, hogy a várhatóérték-képzés elhagyásának milyen 
következményei lesznek. 


Könnyen belátható, hogy (2.86) várható értéke megegyezik a gradiens vektor (2.54) összefüggésével [Wid85 ]. 
A pillanatnyi gradiens vektorral a "legmeredekebb lejtő" módszert alkalmazva a paraméter változtatás 
összefüggésére a következőt kapjuk: 


w(krD-w(k)-e VO(k)-w(k)r24e (k]x(k) 087) 


Az 15 megmutatható, hogy a paraméterváltoztatás eredményeképpen kapott megoldás várható értéke 


E(w(kr1))- z(w(x)) r2s(p-RE(w(xj) 
- (1—2eR) E (wki 2eltwő (2.88) 


amelyből, ha áttérünk az R sajátvektorai által meghatározott koordinátarendszerre, adódik, hogy 


I M ki 
Efv(4)j-(1—2x Aj ív (0). (2.89) 
Fentiekből látszik, hogy ha k minden határon túl nő, az LMS megoldás várható értéke megegyezik az optimális 
megoldással (ami a zérus vektor a sajátvektor koordináta-rendszerben, vagyis az eredeti koordinátarendszerben 
épp a w"), ha (2.89) jobb oldala nullához konvergál. E feltétel pedig azonos a legmeredekebb lejtő módszer 


konvergenciájának (2.69)-ben megfogalmazott feltételével, vagyis a tanulási tényezőre vonatkozó konvergencia- 
feltétel az LMS algoritmusnál is 
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Az LMS eljárás legnagyobb előnye az eddig látott eljárásokkal szemben, hogy alkalmazásához a mintapontokon 
kívül másra nincs szükség, továbbá, hogy nagyon egyszerűen megvalósítható. Az eljárás egyszerűsége mellett 
azonban azt 15 látni kell, hogy a konvergencia feltételének megfelelő tanulási tényező megválasztásához Itt 15 


ismerni kell "ma .ot (vagy legalább annak (2.70) alapján nyerhető felső becslését), sőt a megfelelően gyors 


konvergenciához most 1s szükség van arra, hogy a ú. Aam ET arány teljesüljön. Meg kell jegyezni, hogy a 
sajátértékek becslésének viszonylag nagy számításigénye miatt a gyakorlati alkalmazások többségében a 
tanulási tényezőt tapasztalati úton határozzák meg. 


max / 


Rendkívüli egyszerűsége következtében az LMS eljárást igen elterjedten használják. Az a tény azonban, hogy 
minden lépésben a pillanatnyi gradiens irányában korrigálunk, az optimum közelében problémákat okozhat. E 
problémák jellegét érzékelhetjük, ha az ideális gradienstől való eltérés statisztikai jellemzőit vizsgáljuk. Az 


eltérést modellezzük egy in (e) zaj folyamattal, amivel 


VC) - VOT hník). (2.91) 


Ha elegendően kicsi 4 tanulási tényezővel dolgozunk, akkor elég jól megközelíthetjük az optimális W" értéket, 


VOGZÜ , 


ahol már így 


n(kjz VO(k) -—2e (k)x(k) 2.92) 


Az in (e) zaj kovartanciája 


E(m(tejat (x))-4(e2(x) x(r)sZ (E). 2.93) 


A (2.51) összefüggés segítségével és felhasználva, hogy 


e (4) [d(k)-e (jw(k)) (2.94) 


belátható, hogy az optimum közelében E üi (e)x(k)] 78 , ezért (2.93) átírható a következő alakba: 


Ern(ejaT (kj az (FW Elore (EJ E ACaR 295) 


Ha ennek a varlanciának a hatását nyomon követjük az iterációk során, akkor a paraméter hiba-vektor (v(k)) 
kovarilanciáját 15 becsülhetjük. A levezetés részletezése nélkül 


Ef v(kjvő (ps e Cal, 2.96) 


azaz a paraméter hiba kovarianciavektora egyenesen arányos a tanulási tényezővel, ami azt jelenti, hogy a 
varlanciát úgy tudjuk alacsony szinten tartani, hogy az optimum közelében kis 4 értékkel dolgozunk. 


2.14. ábra - A hibaingadozás alakulása négyzetes paraméterfüggés esetén 
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hibaingadozás: EC) 7 Cain 











paraméter ingadozás: 


Efvj-0 


A paraméter hiba kovarilanciája a 2.14 ábrán látható módon lehetetlenné teszi a minimum elérését. A paraboloid 
hibafelület tulajdonságai következtében ugyanis a bekövetkező hibának nem nin a várható értéke. A (2.57) 


összefüggésre alapozva és felhasználva a Cin (2.52) összefüggését a Cat meghaladó komponensre — az ún. 
többlet átlagos négyzetes hibára (excess mean-sguare error, EMSE) — a következő adódik: 


EMSE - HÍVT (gjA vs ec atr(RÓ , 2.97) 


amelynek felhasználásával a hiba elérhető minimuma 


Csa süni IEEttei Bi (2.98) 


lesz. A pillanatnyi gradiens alkalmazásának következménye önmagában 15 kifejezhető: 


— e tri R]. 
nin (2.99) 





M értékét, amelyet az irodalomban , beállítatlanságnak" (misadjustment) neveznek, tehát a többlet hibának és a 
Wiener-Hopf megoldáshoz tartozó hibának (a minimális átlagos négyzetes hibának) az arányaként definiáljuk. 


A továbbiakban az LMS eljárás néhány további változatával foglalkozunk: előbb az LMS és a Newton 
algoritmus ötvözeteként származtatható algoritmust mutatjuk be röviden, majd egy olyan változat főbb 
jellemzőit foglaljuk össze, amelynek során egy kedvezőtlen konvergencia tulajdonságú eset a bemeneti mintatér 
transzformálásával kedvezőbb esetté alakítható. 


5.1.7. Az LMS/Newton algoritmus 


Ez az algoritmus a Newton és az LMS algoritmus egyes elemeit együttesen magába építi. A Newton algoritmus 
paramétermódosító algoriítmusát a (2.62) összefüggés adta meg és láttuk, hogy amennyiben mind a gradtens, 


mind R" ismert, akkor egy lépésben is elérhető a w" megoldás. Ha R7 et nem ismerjük, és az iterációnkénti 
pontos gradiens helyett csak a pillanatnyi gradiens áll rendelkezésünkre, akkor az LMS eljárás alkalmazható. Az 


LMS/Newton algoritmusnál feltételezzük, hogy R" ismert, de a pillanatnyi gradiens alapján számolunk. Így az 
iterációs összefüggés a (2.62) és a (2.86) összefüggések kombinálásából származtatható, vagyis a Newton 
algoritmusban a gradtens értékét a pillanatnyi gradienssel helyettesítjük: 


wlkr-wiklr24 R7e(k)xlk] (2.100) 
A kapott összefüggés csak annyiban tér el az LMS algoriítmustól, hogy a súlymódosító részben R7 is szerepel. 
Ha R azonos sajátértékekkel rendelkező diagonálmátrix lenne, akkor Aa R7-I.re adódna, vagyis, ha u 


helyett fen u-t használnánk, lényegében visszakapnánk az LMS algoritmust, ahol u-t a sajátérték reciprokánál 
kisebbre kell választanunk. Alkalmazzuk ezt a választást akkor 1s, ha R7 nem diagonálmátrix, sőt a sajátértékek 
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sem egyformák. Ekkor legyen Aa az R mátrix sajátértékeinek az átlaga. Az így kapott algoritmus az 
LMS/Newton algoritmus: 


wlk-r1-w íikir2á 4, RE (kdxlk) (2.101) 


Mindamellett, hogy az LMS/Newton algoritmust kedvező tulajdonságai miatt szokták "ideális adaptív 


algoritmusnak" 15 nevezni, a gyakorlati esetek többségében nem alkalmazható, mert R7 pontos ismeretét 
igényli. Létezik azonban olyan, a gyakorlatban is használható módosítása, amelyben rekurzívan becsüljük az RB , 


ill. R" mátrixot. A (2.100) összefüggés módosításával 


wlt-r1-w íkir2a R7(kaljelkja[k]. (2.102) 


ahol (957 510 cv 5! feltételezésével) 


R(kr1-n Ríkitv xíkixő (ki, (2.103) 


Rk 


a korrelációs mátrix becsült értéke a (£k--1)-edik időpillanatban, pedig az ún. mátrix inverziós lemma 


(Id. Függelék) felhasználásával az alábbi formában adható meg: 


Rare na Orl (HRO( 
7 a (KÖRT (fj x( ke) 
ké . (2.104) 
A (2.103) összefüggésben szereplő konstansok kapcsolata gyakran "7 1 (Továbbá gyakori ajánlás 7-ra a 
[0.9...0.99] közötti érték). A (2.102)-(2.104) összefüggésekkel jellemzett algoritmusnak léteznek további 
változatai, amelyek között érdemi különbség csak az R mátrix rekurzív becslésében van. Formai szempontból a 


(2.102)-(2.104) összefüggések az iteratív, gradiens alapú szélsőérték-kereső eljárások széles családját lefedik. 


5.1.8. Transzformált tartománybeli LMS eljárás 


A legmeredekebb lejtő módszer tárgyalásánál láttuk, hogy a konvergencia-sebességet az R mátrix 
sajátértékeinek alakulása nagymértékben befolyásolja. A konvergencia-sebesség szempontjából a legkedvezőbb 
eset, ha az összes sajátérték azonos, és különösen kedvezőtlen, ha a legkisebb és a legnagyobb sajátérték 


nagymértékben különböző, vagyis ha Ana! Ann 77] Láttuk azt is, hogy a konvergencia-sebesség szempontjából 
azért kedvezőtlen a sajátértékek nagyfokú különbözősége, mert ilyenkor a hibafelület különböző részem a 


felület meredeksége jelentősen eltér, így a finnt alapján választott tanulási tényező — bár a konvergenciát 
biztosítja — az esetek jelentős részében a szükségesnél óvatosabb lépések megtételét eredményezi. Minél 
meredekebb szakaszán mozgunk a hibafelületnek, annál kisebb a megengedhető u. Ha nem tudjuk, hogy a 
hibafelület mely szakaszán haladunk, akkor a u megválasztása szempontjából a legrosszabb esetet kell 
feltételeznünk, vagyis azt, mintha a felület legmeredekebb részén mozognánk. Ezt fejezi ki a (2.69) 
összefüggéssel megadott felső korlát, amely szerint u -t a legnagyobb sajátérték reciprokánál kisebbre kell 
választani. 


A hibafelület alakját az R mátrix jellemzi, ami a bemeneti mintákból számítható. A konvergencia-sebesség 
szempontjából kedvezőbb helyzet tehát úgy teremthető, ha a bemeneteket módosítjuk. A módosításnak arra kell 
irányulnia, hogy a módosított bemenetek autokorrelációs mátrixa minél inkább az egységmátrix legyen. A 


bemenetek módosítása valamilyen alkalmas transzformációval lehetséges. A transzformáció az x(4)) bemeneti 


mintapontokból (x (4) transzformált mintapontokat állít elő. A transzformáció következtében természetesen az 
eredeti probléma megoldásában szerepet játszó w paramétervektor helyett az ugyancsak megfelelő módon 
transzformált w? paramétervektor fog szerepelni [Nar83]. 


A szélsőérték-keresési probléma a transzformált bemenetekre 15 megfogalmazható, így az eddig bemutatott 
eljárások mindegyike alkalmazható transzformált esetben 1s. 
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Megfelelően választott transzformációt és azt követő normalizálást alkalmazva biztosítható a Ana! Ann 7] 


arány. Jelölje T az x(£) és X(k) közötti transzformációt leíró mátrixot: 


X(k)-TXx(k). (2.105) 


a. , 4 as pee SEB j 4 sk 
Ha a kiinduló bemenetek autokorrelációs mátrixa  " ; j , a transzformált bemenetek autokorrelációs 
mátrixát 


R,,- Z[XXI-8ÍTSZÁT ]-TR TT" 


(2.106) 


formában kapjuk (a kétféle autokorrelációs mátrix megkülönböztetése miatt alkalmazzuk a bemenet 


autokorrelációs mátrixára az Pa jelölést az eddigi R helyett és az Ra jelölést a transzformált bementek 
autokorrelációs mátrixára). Legyen T egy ortonormált transzformáció, vagyis teljesüljön a TT"-I összefüggés. 


Ha még azt 15 előírjuk, hogy T—-O", ahol O az R a mátrix normált sajátvektoraiból képezett mátrix, akkor (2.55)- 
et figyelembevéve 


Bix RO - A , (2.107) 


vagyis a transzformált bemenetek autokorrelációs mátrixa az Ra sajátértékeiből képezett diagonálmátrix. A 
diagonálmátrixból egységmátrix megfelelő normalizálással nyerhető. Ezért, ha a transzformáció mátrixát 


5 a-laAaT ; . , fé. setén 
1-A 0 ja választjuk, a transzformált bemenet autokorrelációs mátrixára 


R,, - E[XXI- 8(TSZT ]-TR TT —- ASOR, 04 -I 


(2.108) 
adódik, vagyis minden sajátérték azonos és egységnyi lesz. 


Az autokorrelációs mátrix sajátvektoraiból képezett (0 mátrixszal elvégzett ún. főtengely transzformációt 
Karhunen-Loéve transzformációnak (KL transzformáció, KLT) 15 nevezik. A kitűzött feladat szempontjából ez 
az optimális transzformáció, hiszen ha a főtengely transzformáció után a sajátértékek reciprokával (2.108) 
szerint még normalizálunk is, a kitűzött célt el 15 érjük, a sajátvektorok azonosak lesznek. 


A konvergencia-sebesség növelésére a KL transzformációt, annak viszonylag jelentős számításigénye miatt, 
ritkán használják. Helyette könnyebben számítható ortogonális transzformációkat, például a diszkrét Fourtler 
transzformációt vagy a diszkrét koszinusz transzformációt szokás alkalmazni. Ha a KL transzformációtól eltérő 


ortogonális transzformációt alkalmazzuk, meg kell vizsgálnunk, hogy ennek milyen hatása lesz a Anane Ámán 
arány alakulására. 


Írjuk fel ehhez komponensenként a transzformált tartománybeli LMS eljárás súlymódosítását: 


milli lk] eze [£)X ÍR). 2.109) 


ahol a vá értékek a transzformált tartománybeli súlyokat jelölik. A súlymódosításnál most minden komponens 


esetén más-más tanulási tényezőt (A) alkalmazhatunk. Ha a 


(2.110) 


választással élünk, akkor ez a transzformált tartományban normálást 1s jelent. 


A súlymódosítást vektorosan 1s felírhatjuk, ha bevezetjük a A N x N-es diagonálmátrixot, melynek az (zi, i)-dik 
B( 22 (o) 
eleme . 


w: (kr) -wj(x) r2yAde XI.) 2111) 
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AR. 


A transzformált tartományban a konvergencia sebessége X sajátértékeinek szóródásától vagy a 


legnagyobb és legkisebb sajátértékének arányától függ. 


Ennek az aránynak a becsléséhez felhasználjuk, hogy egy A mátrix Ana P Ámán aránya felülről becsülhető: 





Eat sz Tr(Aj 
Man DEA) 2.112) 


mivel az A mátrix maximális sajátértéke a mátrix nyomával majorálható, minimális sajátértéke pedig a mátrix 
determinánsával minorálható: 


Mm STTLA) 2.113) 
illetve, ha N52 


haz DetlA) (2114) 


2 
Ha feltételezzük, hogy Elz (x)) k akkor 


38 ság j j 
Tr[A RgxJ-Tr(RAJ-N 9115) 
továbbá 
Det[A9Ry]-Det[ÁTjDet(Rg)- Det( A )Det(R,) ZT 
ÉS 
Tr( ATR. . 

[ i xx) - Det (A ) Tr(íR,]) 
Det(ARux) Det(R.) 

. (2.117) 
Tr[AJ-W A 

Mivel rl , ezért feltételezhető, hogy DEHAJ legfeljebb 1 lehet, ezért 


Ir (AR) e Tr(R.) 
Pets] 5 B e] (2.118) 


tehát megfelelően megválasztott transzformációnál — bár (2.118) erre feltétlen garancát nem ad — esély van arra, 
hogy a sajátérték-arány csökkenjen és így kedvezőbb feltételeket biztosítson a gyorsabb konvergenciához. A 
transzformált tartományra való áttérés hatását illusztrálja a 2.15 ábra. 


2.15. ábra - A hibafelület (kétdimenziós) alakulása az eredeti (a), a transzformált (b) és 
a transzformált-normalizált (c) esetben 





dt.) h.) c) 
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Az ábra a hibafelület izokritérium görbéit mutatja a paramétertérben az eredeti bemenőjelre (a), a transzformált 
tartományban, normalizáció nélkül (b) és a transzformált tartományban normalizációval (c). Megjegyezzük, 
hogy az optimális transzformációt jelentő KL transzformáció esetén a kvadratikus hibafelület izokritérium 
görbéi koncentrikus körök lesznek. 


A fentiek után még azt kell megnéznünk, hogy eredményként mit kapunk, ha a transzformált bemeneti térben 
alkalmazzuk a legmeredekebb lejtő módszert vagy az LMS algoritmust. Láttuk, hogy az eredeti bemeneti 
tartományban végzett LMS eljárás a (2.51) Wiener-Hopf egyenlet által megadott súlyvektorhoz tart 


- — T-l 
w -BePxw (2119) 


ahol P:x: a bemenet és a kívánt kimenet keresztkorrelációs vektora. 


Könnyen belátható, hogy 


w"-RnPxs-ITRaPa-Tw (2120) 


ahol Pnx , mint (2.107)-ben megadtuk a transzformált bemenet autokorrelációs mátrixa, Px3 pedig a 
transzformált bemenet és a kívánt válasz keresztkorrelációs vektora. Tehát a transzformált bemenetekre 
alkalmazott LMS eljárás eredményeképpen kapott súlyvektor az eredeti súlyvektor transzformáltja lesz. 


ay 


5.1.9. Szélsőérték-keresés paramétereiben nemlineáris modellek esetén 


Az eddigiekben feltételeztük, hogy kvadratikus kritériumfelülettel van dolgunk, amit a legegyszerűbben az 
KN 
3-9 4 lineáris kapcsolat és a négyzetes hibafüggvény biztosíthat. A súlytér felett azonban akkor is 


ST 
kvadratikus kritériumfelületet kapunk, ha a vizsgált leképezést Y—W PÉ9) alakban adhatjuk meg. Ekkor 


valójában először a bemeneti vektorok P(x) általi (nemlineáris) transzformációja történik, a transzformált térről 
a kimeneti térre pedig már lineáris leképezést valósítunk meg. Az optimális paramétervektor meghatározása 
szempontjából azonban ez az eset nem különbözik az eddig tárgyalttól, hiszen a modellünk most is a 
paramétervektor lineáris függvénye. Egyes neuronhálók (pl. a radiális bázisfüggvényes — RBF — hálózatok) 
leképezése ez utóbbi általános formulával írható le, míg más hálóknál — pl. az MLP-knél — a nemlineáris 
leképezés már a paraméterekben 15 nemlineáris kapcsolattal történik. Ez utóbbi esetben — még ha négyzetes 
hibafüggvényt alkalmazunk 1s — a kritériumfüggvény nem lesz a paraméterek kvadratikus függvénye, sőt még az 
sem garantálható, hogy a kritériumfüggvény konvex függvény legyen. Ilyen esetekre az előzőekben bevezetett 
gradiens alapú eljárásokat és az eljárások eredményét külön kell értékelnünk. 


A paramétereiben nemlineáris modellek egyik legfőbb jellemzője, hogy a hibafelület nem unimodális: a 
hibafelületen nem csak egy — globális — szélsőérték (maximum vagy minimum) található, hanem számos — 
lokális — szélsőérték is lehet. Vagyis a 


.DCÉw) 


Ve [w) 
E Ww 
(2.121) 
feltételt nemcsak a globális szélsőértékhez tartozó w"?" paramétervektor, hanem egyéb paramétervektorok 1s 
biztosíthatják. Sőt, általános esetben az is előfordulhat, hogy egy egész paramétertartományban a felület 
gradiense zérus, ami azt jelenti, hogy a hibafelületen valamekkora kiterjedésű , lapos" terület is található. 


A gradtiens alapú eljárások ilyenkor 15 alkalmazhatók, az eredményeket azonban külön értékelni kell. A gradiens 
eljárásokkal kapott eredmény nem feltétlenül jelenti a legkisebb kritérrumértékhez tartozó megoldást, így az 
eredmény minősége — a kritériumérték — alapján mérlegelni kell, hogy a kapott megoldásvektor a hibafelület 
globális minrimumpontját adja meg, vagy csupán egy lokális minrimumpontot. A megoldást még ezen utóbbi 
esetben 1s elfogadhatjuk, ha a kapott kritériumérték az adott alkalmazást tekintve elegendően kicsi. Ha nem, 
akkor újabb (lokális) minimumpontot kell keresni, ami szerencsés esetben egyben a globális minimumpont 15 
lehet. 


A nemkvadratikus hibafelületek további következménye, hogy olyan eljárásoknál, ahol a konvergenciához 
szükséges lépések száma kvadratikus hibafelület mellett meghatározható, most ez sem lesz érvényes. A 
konjugált gradiens eljárásnál például nem kvadratikus hibafelület mellett N iteráció után az algoritmus nem 
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állítható le. Ilyenkor az az általánosan javasolt eljárás, hogy N iterációnként indítsuk újra az egész algoritmust 
egy új kezdeti gradiens meghatározásával. Meg kell azonban jegyeznünk, hogy valóságos esetekben az N- 
lépéses konvergencia még kvadratikus hibafelület mellett sem biztosított, hiszen numerikus problémák miatt a 
gradiens értékére sohasem fogunk nullát kapni. Ilyenkor az algoritmus leállítása sem történhet meg a gradiens 
értéke alapján. Helyette vagy egy adott iterációszám, vagy ha az egymást követő iterációkhoz tartozó 
kritériumértékek különbsége megfelelően kicsi jelentheti a leállás feltételét. A tapasztalat szerint azonban a 
konjugált gradiens módszer még nem ideális esetben (numerikus problémák, vagy nem "teljesen" négyzetes 
hibafelület) és az optimumtól távol 15 kedvezőbb konvergenciát mutat, mint a direkt gradiens módszerek. 


5.1.10. További gradiens-alapú módszerek 


Az előzőekben láttuk, hogy egyes eljárások, mint a Newton, a Newton/LMS, de a konjugált gradiens módszer 15 
a hibafelületről az R mátrix figyelembevétele által a gradiensen túl további információt is felhasználnak. 
Kvadratikus hibafelület esetén R a hibafelület második parciális deriváltjaiból képezett H ún. Hesse mátrixszal 
egyezik meg, tehát R valójában a hibafelület görbületéről szolgál információval. Kvadratikus hibafelületet — 
mint láttuk — paramétereiben lineáris modell és négyzetes hibafüggvény mellett kapunk. A hibafelületre 
vonatkozó járulékos információ a konvergenciasebességet jelentősen megnöveli a csupán a gradilens 
felhasználásával dolgozó LMS eljáráshoz képest. A Newton módszerrel pl. négyzetes hibafelület mellett akár 
egy lépésben 1s eljuthatunk a hibafelület minimumpontjába. 


A Newton illetve a Newton/LMS eljárások előnyös konvergencia tulajdonságai ellenére számos nehézséget 15 
rejtenek. Egyrészt alkalmazásukhoz kell, hogy R pozitív definit legyen, másrészt R"! meghatározása 
számításigényes. További gondot jelenthet, ha a hibafelület nem négyzetes. Az alábbiakban bemutatott 
Levenberg-Marguardt eljárás ezekre a nehézségekre igyekszik megoldást találni. 


A nemkvadratikus kritériumfelület kezelhető olyan módon hogy a C(w) kritériumfüggvényt Taylor-sorának első 
néhány tagjával közelítjük. Ha az első és másodfokú tagokat vesszük figyelembe, akkor egy nemkvadratikus 
kritériumfelület kvadratikus közelítésével dolgozunk. 


Cl) (rex) VE (er (JJ hr (1) zel) HEÉv ve (E]) rag) 


ahol 
He avalw(k)i 
ÖW (2.123) 


a kritérrumfelület második parciális deriváltjaiból felépített Hesse-féle mátrix. A (2.122) összefüggésnek a 
(2.53) összefüggéssel való összevetéséből látszik, hogy a H mátrix az R mátrixnak feleltethető meg. 


Ha a (2.122) összefüggés minimumát w szerinti deriválással keressük, akkor a közelítő négyzetes hibafelület 
minimumpontját egy lépésben is elérhetjük. Ehhez a 


VC lwlet1]J-0—- VvOlwikj jr Hiwikjjiwík411—wík)) 2.124) 


feltételt kell kielégítenünk, amelyből a Newton módszert (lásd (2.61)) kapjuk: 


w(ka1-w írj Híwiój VO fw ír). 2.125) 


Az 1/2-es szorzó a korrekciós tagból most hiányzik, mert a (2.122) összefüggés jobboldalának harmadik 


tagjában a (2.61) összefüggéssel ellentétben H7 szerepel. Az így kapott eljárás nemkvadratikus hibafelület 
esetén nem feltétlenül Jobb, mint a gradiens alapú eljárás. Ezért hatékonyabb lehet, ha a Newton eljárás és az 
egyszerű gradiens alapú eljárás , keverékét" alkalmazzuk. Ezt javasolja a Newton módszer Levenberg- 
Marguardt féle módosítása: 


wlk-r1)-w(xj-(Híwíx)) ACT Vo pwtj]. (2.126) 


Látható, hogy a (2.126) összefüggés valójában a legmeredekebb lejtő módszer és a Newton eljárás 
kombinációja, ahol a kétféle eljárás arányát a 4(k) lépésfüggő együttható szabja meg. Ha 4(k) nagy, a (2.126) 
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alapján történő súlymódosítás a legmeredekebb lejtő módszert, míg ha 4(k) kicsi, a Newton eljárást közelíti. A 
1(k)I beépítése az eljárásba regularizációként 1s értelmezhető, ami a mátrix invertálhatóságát akkor 1s biztosítja, 
ha H közel szinguláris. 


A neurális hálózatok tanításánál hatékonynak bizonyult a H mátrix egy közelítése, amely a következő 
gondolatmeneten alapszik. Tételezzük fel, hogy a kritértiumfüggvény önmagában négyzetes, de a 
paraméterfüggés nemlineáris, tehát 


C(w)- e B[(d- yt (e?) 


. (2.127) 
Ekkor a gradilens vektor 


volwi-—-zlevyíw)]i (2.128) 


alakban írható, illetve ennek minden sorát deriválva minden paraméter szerint megkapjuk a H mátrixot: 


H - 219 w ) Yv (wy — s] 
, (2.129) 


ÖMLŐ VI; 


ahol a szögletes zárójelben szereplő kifejezés y(w) másodrendű parciális deriváltjainak mátrixát szimbolizálja. 
Mivel a (2.129) kifejezés második tagja €-nal szorzódik, a H mátrix az optimumhoz közeledve egyre inkább az 
első tagtól függ, hiszen akkor általában mind e, mind y(w) görbülete egyre kisebb, ezért felvethető a 


Hz E(Vy(wvyíwy] (2.130) 


közelítés. Ha H (2.130) szerinti közelítését (2.126)-ban alkalmazzuk, akkor számítási hatékonyság 
szempontjából kedvezőbb megoldást nyerünk, hiszen a Hesse mátrix (2.130) szerinti becslése jóval kisebb 
számításigényű, mintha a valódi második deriváltak alapján számítanánk. Meg kell jegyezni, hogy sok sikeres 
alkalmazás fűződik egy olyan megoldáshoz, ahol az I egységmátrix helyett egy olyan €? diagonálmátrixot 
alkalmazunk, melynek elemei megegyeznek H (2.130) szerinti becslésének diagonális elemeivel. Az így kapott 
eljárást az irodalomban Levenberg-Marguardt módszernek nevezik [Mor77]. 


ay 


5.1.11. Feltételes szélsőérték-kereső eljárások 


sokszor feltételes szélsőérték-keresési eljárásra vezet. Ilyen esetekkel találkozunk például, ha a leképezés 
hibájára vonatkozó kritérium vagy kockázat minimalizálását bizonyos mellékfeltételek teljesülése mellett kell 
elvégeznünk. Mint az egyes hálóarchitektúráknál látni fogjuk, ilyen mellékfeltétel lehet a háló leképezésére 
megfogalmazott valamilyen simasági feltétel, vagy a paraméterekre vonatkozó megkötés: a paraméterek értékei 
a lehető legkisebbek legyenek, vagy a paramétervektor komponenseinek összege legyen egy adott érték, 
tipikusan 1. A mellékfeltételek megfogalmazásának egy lehetséges módja a 2.1 részben bemutatott regularizáció 
IS. 


A feltételes szélsőérték problémák gyakran a következő formában fogalmazhatók meg: keressük egy skalár 
értékü konvex C(w) kritériumfüggvény extrémumához tartozó w"-ot azzal a feltétellel, hogy egyidejüleg a 
2e(w)-0 formában adott mellékfeltétel 15 teljesüljön. 


Az ilyen típusú feltételes szélsőérték-keresési problémák hatékony megoldására szolgál a  Lagrange 
multiplikátoros módszer. A [Lagrange multiplikátoros eljárásnál meg kell fogalmazni egy módosított 
kritériumfüggvényt, amely mind az eredeti kritériumfüggvényt, mind a mellékfeltételt magában foglalja: 


Bér, 4) -C(wIFÁARÍW) (2131) 


VEGw, 2-0 


A feltételes szélsőérték a megoldásából adódik. 


Amennyiben nem egyenlőség, hanem egyenlőtlenség formájában vannak mellékfeltételeink, vagy az egyenlőség 
típusú feltételek mellett egyenlőtlenség típusú mellékfeltételeink 15 vannak, a Karush-Kuhn-Tucker (KKT) 
elmélet alkalmazásával kaphatunk megoldást, amely elmélet a Lagrange módszer kiterjesztésének tekinthető. 
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Mind a Lagrange, mind a KKI elmélet rövid összefoglalását a Függelékben adjuk meg. 


5.2. Sztochasztikus szélsőérték-kereső eljárások 


A gradiens módszerek hatékony működéséhez a kritériumfelületről bizonyos tulajdonságokat fel kell tételezni. 
A kedvező konvergencia-sebességet általában csak kvadratikus hibafelület mellett biztosítják, továbbá a 
minimumhely elérése csak akkor biztos, ha a felületen nincsenek lokális minrmumok (unimodális felület). 


A neurális hálózatokra tipikusan a nem kvadratikus hibafelületek, a lokális minimumok fennálltának lehetősége 
és általában a konvergencia szempontjából kedvezőtlen tulajdonságok a jellemzőek. A lokális 
minimumhelyekben való bennragadás elkerülésére sztochasztikus gradiens eljárásokat dolgoztak ki, amelyek fő 
jellemzője, hogy a kritériumfelületen valamilyen — általában kis és az algoritmus során változó — 
valószínűséggel a felfelé mozgást 15 megengedik, lehetővé téve a lokális minimumból való kiszabadulást. A 
sztochasztikus gradiens eljárások célja, hogy a tanulási folyamat során véletlen zaj felhasználásával lehetővé 
tegyük, hogy a hálózat a lokális minimumból kikerüljön. Ennek egy egyszerű, heurisztikus módja, ha olyan 
esetekben, amikor a lokális minimumba kerülés gyanúja fennáll, vagyis a tanulási folyamat több lépése sem 
eredményez hibacsökkenést, a hálózat aktuális súlyaihoz zajt adunk. Additív zajként általában egyenletes vagy 
Gauss eloszlású valószínűségi változó aktuális értékeit tekintjük. A súlyoknak az ilyen véletlenszerű 
"megrázása" kiugrathatja a hálózatot a lokális minimumból. 


A zaj felhasználás egy további lehetséges módja, ha az eddigi kritériumfüggvényt az alábbiak szerint 
módosítjuk: 


KS A 
Clw]- Cíwyrtelk] 2) vin (d) 
HT , (2.132) 


8 Tr 
ahol 6 hw) a módosított kritériumfüggvény, az " LA) értékek az n(4)-[/ VEGES Messzi (x)] független 
fehérzaj komponensei, a w;-k pedig a w súlyvektor komponenseit. A c(k) lépésfüggő együttható az additív Zaj 
amplitúdóját határozza meg; ezt olyan módon kell megválasztani, hogy a k diszkrét időindex előrehaladtával 
tartson nullához. Az így definiált kritériumfüggvény esetén a súlymódosítás az i-edik súlykomponens esetében: 


elen] 


mi (r1) (3-4 aim 


Az eljárás egyik kulcskérdése a c(k) paraméter megválasztása. Legtöbbször c(k) k monoton csökkenő 
függvénye, azonban néhány esetben bonyolultabb módon változtatjuk c(k)-t. Pl. c(k) értékét átmenetileg 
növelhetjük, ha észrevesszük, hogy lokális minrimumba kerültünk. A legegyszerűbb választás az alábbi lehet: 


c(kj— Be 2134) 


ahol 850 és a50. Ekkor 8 a kezdeti (4k—0) zajamplitúdót határozza meg, míg a az additív zaj csillapodásának 
mértéke. 


A sztochasztikus szélsőérték-kereső algoritmusok között kell megemlíteni a szimulált lehűtést (simulated 
annealing, SA) lAar89] 15, amely szintén megengedi, hogy a hibafelületen valamilyen valószínűséggel felfelé, a 
nagyobb hiba irányában 1s elmozduljunk. A felfelé mozgás valószínűsége a minimalizáló eljárás előrehaladtával 
fokozatosan csökken, mígnem a minimum közelében 0-hoz tart. A szimulált lehűtés előnye, hogy a globális 
minimumhoz konvergál 1 valószínűséggel, hátránya az eljárás nagyfokú lassúsága. A szimulált lehűtéssel 
részletesebben a 11. fejezetben foglalkozunk. 


Tulajdonképpen az LMS eljárások 1s felfoghatók sztochasztikus gradiens módszerekként, hiszen a pillanatnyi 
gradiensen alapulnak, ami a valódi gradiens zajos értékének feleltethető meg. Láttuk ís az LMS eljárás 
tárgyalásánál, hogy konstans x mellett — még ha a u a konvergenciát biztosító tartományon belül 15 van — a w" 
megoldásvektort nem fogjuk elérni, az eljárás nem áll le, hanem a súlyvektor w?" valamekkora környezetében 
fog "vándorolni". Az eljárás konvergenciája csak akkor biztosítható, ha konstans x helyett lépésenként csökkenő 
u -t alkalmazunk. A lépésfüggő u megválasztására a sztochasztikus approximáció ad támpontot. A 
sztochasztikus approximáció ún. Robbins-Monro-algoritmusa olyan sztochasztikus zérus-kereső módszer, amely 
zajos megfigyelések ellenére 15 biztosítja a konvergenciát (Id. még [Bat92]). A konvergencia akkor biztosítható, 
ha a lépésfüggő 4 -re betartjuk az alábbi feltételeket: 
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57 Alk) —on. és 57224) 20 
k-l Fal . (2.135) 


Megjegyezzük, hogy ezek a feltételek kielégíthetők pl. u(k)-uoj/k választással (ahol ug alkalmasan megválasztott 
konstans). 


Bár a felügyelt tanítású hálózatoknál többségében determinisztikus vagy sztochasztikus gradiens eljárásokat 
alkalmaznak, számos esetben egyéb, nem a hibafelület gradiensén alapuló eljárást használnak. A gradiens 
eljárások hátránya ugyanis — akár determinisztikus, akár sztochasztikus eljárásról van szó —, hogy a 
kritériumfelületről valamilyen a priori ismerettel kell rendelkezzünk. Az általános, nem gradiensen alapuló 
kereső eljárások viszont nem tételeznek fel semmit a kritériumfelületről. A keresés során valamilyen véletlen 
(egyes esetekben determinisztikus) algoritmus szerint feltérképezik a felületet. A legkézenfekvőbb megoldás a 
kritériumfelület teljes feltérképezése (a megoldási tér teljes végigtesztelése), azaz minden lehetséges 
paraméterérték (súlyvektor) mellett a kritérriumfüggvény meghatározása. Mivel csak véges számú pontban 
határozható meg a kritériumfüggvény értéke, a paraméterek változtatása diszkrét lépésekben történhet. Ez azt 
jelenti, hogy a súlytérre egy megfelelő finomságú (nem feltétlenül egyenletes felbontású) rácsot helyezünk és a 
kritériumértékeket a rácspontokban határozzuk meg. Ez az ún. "kimerítő (teljes) keresés" (exhaustive search) 
megfelelően finom felbontás mellett biztosan megtalálja a globális minimumot. 


A dimenziószám növelésével viszont a rácspontok száma hatványozottan növekszik, ezért a legegyszerűbb 
esetektől eltekintve — tehát szinte minden valós problémánál — az eljárás elfogadhatatlan mértékű számítást 
igényel. A nagy számításigény mérséklésére a determinisztikus teljes keresés helyett egyéb kereső eljárások 
alakultak ki, melyek a kritériumfelület feltérképezésének eltérő módját alkalmazzák. Ezen eljárások közös 
jellemzője, hogy a kritériumfelület feltérképezését nem előre meghatározott módon, hanem lépésről lépésre, a 
pillanatnyi állapottól függően végzik. A következőkben a (nem gradiens alapú) kereső eljárások két, jelentősen 
eltérő családjával foglalkozunk. 


5.2.1. Véletlen keresés 


Véletlen kereső módszereknél a paraméterértékek véletlenszerű megváltoztatásával próbálkozunk. Ha egy 
próbálkozás eredményeképpen kapott paraméterhez tartozó kritérriumérték az előző pontbelinél kisebb, az új 
pontot tekintjük a következő lépés kiunduló pontjának, ellenkező esetben a régi paraméterértéket tartjuk meg és 
a keresést tovább folytatjuk. A véletlen keresési eljárásoknak — a hatékonyság növelése érdekében — különböző 
változatait dolgozták ki. Az alábbiakban a véletlen keresés alapeljárásának és egy módosított változatának fő 
lépéseit foglaljuk össze. 


Mátyás véletlen optimalizálási módszere [Mátó65] 1 valószínűséggel biztosítja a globális minimumhoz való 
konvergenciát, abban az esetben, ha a keresési tér kompakt (korlátos és zárt). Jelölje W a kompakt keresési teret, 
w(k) pedig a keresési tér egy pontját. 


A módszer a következő lépésekből áll: 


1. 


válasszunk egy kezdeti pontot: k—0, " [E] e W 


, 


HA 


generáljunk egy nulla várható értékű, Gauss véletlen vektort: 84) , módosítsuk a véletlen vektorral a pillanatnyi 


pont értékét: wiklrólk) és ha " [e)télkjew , ugorjunk a 3. lépésre, egyébként ugorjunk a 4. lépésre, 


69 
na CLv69-é9] . elv] 


. elwiritélki lzélwir 
(paraméterértéket) tekintsük a megoldás következő közelítésének, ha Let Jól ] hi 1 akkor a 
paraméterértéket ne változtassuk meg, tehát w(k--1)—w(k) maradjon, 


wlk-r1lj-wikirélk] 


, akkor legyen , vagyis a módosított pontot 


4. 
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növeljük meg k értékét: k-ki1 és folytassuk az eljárást a 2. lépéssel. 
A konvergencia gyorsítható, ha a 3. lépést az alábbival helyettesítjük: 


0 
ha CÍw (e) ő(x) [ C[w (e) ] , akkor wiktl-wikj nélk) és 


m(k-1j— 0 2mi kü di (ke) legtöit. 


na öltő (e) [zel] e, őlwe(2— e] Elw(E] akkor: 


w(krl-w(x)-t(x) ,, m(k-r1)-m(x)-0,4€(x) 


é legyen, 


egyébként pedigY [4-41j—-w ik] és mik-r1j— 0 Smik] i 


ahol m(k) a Gauss valószínűségi vektorváltozó várható értéke a k-adik lépésben. 


A módosított eljárás tehát változó várható értékű Gauss véletlen vektort használ. Kezdetben a várható érték Itt 15 
nulla: m(0)—-0. Bizonyítható [Sol81], hogy a módosított eljárás 15 1 valószínűséggel konvergens és a globális 
minimumhoz konvergál, ha a keresési tér kompakt. 


Neurális hálózatokra való alkalmazásnál általában nem biztosítható, hogy a keresési tér kompakt legyen. A 
súlyértékek nem szükségszerűen korlátos tartományban vehetnek fel csak értékeket. Ez azt jelenti, hogy a 
véletlen keresési módszerek nem feltétlenül konvergálnak a globális minimumhoz. Abban az esetben azonban, 
ha a keresési teret korlátozzuk, akkor e tartományon belül a globális minimumhoz való 1 valószínűségű 
konvergencia igaz. E nehézség ellenére, alkalmazástól függően a véletlen keresési módszerekkel más 
eljárásoknál gyorsabb konvergencia 1s elérhető. 


A véletlen keresési módszerek sok esetben sikerrel alkalmazhatók egyéb szélsőérték-kereső eljárásokkal, pl. 
gradiens alapú módszerekkel kombinálva. Ilyenkor a gradiens módszert alkalmazzuk mindaddig, amíg a 
kritérriumfüggvény értékének csökkenése egy adott korlátnál kisebb nem lesz, majd áttérünk a véletlen 
keresésre. A kritériumcsökkenés lelassulása vagy megállása annak jele, hogy a hibafelület meredeksége nagyon 
lecsökkent, esetleg lokális minimumhelyet értünk el. A minimumhelyben való bennragadás elkerülésére 
alkalmazzuk most a véletlen keresést, mindaddig, amíg a hibafelületen meredekebb részre nem érünk ismét, 
ahol célszerűen visszatérünk a gradiens alapú módszerre. 


5.2.2. Genetikus algoritmusok 


A genetikus algoritmusok [Hol75], [Gol$89a] az evolúció számítógépes modelljei, a természetes szelekciót 
utánozzák. Az evolúció a természetes kiválasztódással központi szerepet tölt be a biológiában. A mesterséges 
intelligencia témakörében, a mesterséges intelligens rendszerek létrehozásánál az utóbbi időben egyre 
gyakrabban alkalmazzák a természetes kiválasztódás modelljét. 


A genetikus algoritmusok sztochasztikus keresési algoritmusoknak tekinthetők, ahol a  paramétertér 
feltérképezése és az iterációnként egyre Jobb megoldások előállítása az eddigi eljárásoktól gyökeresen eltérő 
módon történik. Az eddigi szélsőérték-keresési eljárások — akár a gradiens módszerek, akár a véletlen keresés — 
a paramétertérben egy pontot mozgattak és a pont minden egyes állapotában — ami egy lehetséges megoldásnak 
felelt meg — kiértékelték a kritériumfüggvényt, majd ennek eredményétől függően folytatták az eljárást. Az 
alapvető eltérés e két módszer között csak az egymást követő pontok meghatározásában volt. 


A genetikus algoritmusok ezzel szemben nem különálló pontokban vizsgálják a kritériumfelületet, hanem 
egyszerre több ponton értékelik ki, tehát egy lépésben a megoldások egész halmazával dolgoznak. Genetikus 
algoritmusoknál a megoldások egy adott lépésben érvényes halmazát populációnak nevezik. A populáció elemei 
különböző sikerrel oldják meg a feladatot, ami szélsőérték-keresésnél azt jelenti, hogy a populáció elemei a 
kritérriumfüggvény különböző pontjait határozzák meg. E pontok között lesznek olyanok, amelyek a globális 
minimumhoz közelebb esnek — ahol a kritériumfüggvény értéke kisebb —, és lesznek a megoldástól távolabb eső 
pontok 15. A populáció elemei tehát a feladat szempontjából eltérő tulajdonságúak, képességűek. A genetikus 
algoritmusoktól azt várjuk, hogy a természetes szelekció mintájára egy látszólag spontán fejlődés során egy 
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adott populációból olyan újabb populációt, ill. olyan újabb és újabb populációkat hozzanak létre, amelyekben a 
jó megoldáshoz közeli megoldások egyre nagyobb számban lesznek megtalálhatók, és amelyekben a gyenge 
eredményt szolgáltató elemek egyre ritkulnak. Ez azt jelenti, hogy valójában a genetikus algoritmusok is egy 
hálót helyeznek a kritériumfelületre, azonban e háló nem rögzített felbontású, hanem lépésenként változik. Ezen 
túl a kritériumfüggvény kiértékelése a háló rácspontjaiban nem egyenként történik, hanem minden egyes 
lépésben a lépéshez tartozó háló összes rácspontjában. A kiértékelés eredményeképpen egy új háló jön létre, 
amelynek lehetnek közös rácspontjai az előző hálóval, de alapvető jellemzője, hogy miközben egyes régi 
rácspontok eltűnnek, új rácspontokkal 15 fog rendelkezni, és ezen rácspontok a kritérriumfüggvény kedvezőbb 
tartományain sűrűsödnek: a rácspontok sűrűsége arányos lesz az adott tartomány jóságával. Bizonyos 
szempontból tehát a genetikus algoritmus a véletlen kereséssel rokonítható, hiszen itt 15 a teljes keresési tér 
valamilyen feltérképezéséről van szó. A genetikus algoritmus azonban — szemben a véletlen kereséssel — nem 
vakon keres. A keresés az egymást követő lépésekben egyre inkább a kritériumfüggvény minimumhelyei 
környezetére koncentrálódik. 


Az egymást követő populációkat — biológiai mintára — generációknak nevezzük, tehát az algoritmus az egymást 
követő generációk során egyre Jobb megoldás-halmazokat állít elő. E folyamat követhető a 2.16 ábrán. Az 
egydimenziós paramétertérben az egyre későbbi generációk során a populáció jobb megoldást adó elemei a 
kritérriumfüggvény minimumhelyei közelében sűrűsödnek. 


Egy populáció elemeinek tulajdonságait valamilyen módon reprezentálni kell. E reprezentáció — megint csak 
biológiai szóhasználattal élve — ktomoszómákkal történik, amely jelen esetben olyan bitfüzéreket — stringeket — 


ssllt ZA 


e... 


egymást követő string-populációk fejlődése során Jut el a megfelelő megoldásig. A megoldási tér (paraméter tér) 
minden egyes pontjának egy kromoszóma felel meg. 


Az eddigiek alapján összefoglalhatjuk a genetikus algoritmusok fő jellemzőit: 


e a paraméterek optimalizálása során nem az egyes paramétereket próbálja megtalálni, hanem az egész 
paraméterkészlettel (általában annak bináris kódolású változatával) dolgozik egyszerre, 


e a keresés során nem egyetlen — az optimális — paramétert keresi, hanem a megoldások egész halmazát adja 
meg; ezek mindegyike Jó megoldás a kritériumfüggvény szempontjából, bár nem egyformán Jók, 


e csak a kritériumfüggvény egyes értékeit használja, de a kritériumfüggvényről semmit sem tételez fel (pl. 
unimodalitás, folytonosság, differenciálhatóság), hiszen nem alkalmaz deriválást (a véletlen keresés 
módszerre hasonlít ebből a szempontból 15), 


e valószínűségi átmenetekkel dolgozik. 

Hogy az egymást követő populációk egyre jobb tulajdonságú stringeket tartalmazzanak, a stringek valamilyen 
kiértékelésére van szükség. Minden stringhez hozzárendelhetünk egy "jóság" (fitness) értéket, ami lényegében 
annak mértéke, hogy egy adott string által képviselt megoldás milyen kritériumfüggvény-értéket eredményez. 
Minél kisebb a kritériumfüggvény-érték, annál jobb a megoldás, tehát a fitness érték annál nagyobb. 

A genetikus algoritmus a kromoszómák generációival dolgozik. A megfelelő működést az jelenti, ha az újabb 
generációk átlagos jósága (fitness-értéke) egyre nagyobb, de legalábbis nem csökken. Tehát az egyes lépések 


során a Jó kromoszómák által hordozott információt kell tovább örökíteni a következő generációra. 


A generációk közötti átmenet valószínűségi operátorokkal történik. A legegyszerűbb genetikus algoritmus a 
következő alap-operátorokkal rendelkezik: 


e reprodukció, 
e keresztezés, 
e mutáció. 


2.16. ábra - A genetikus algoritmus szélsőérték-kereső mechanizmusa 
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C(w) 





l. generacio bj 


C(wi 


C(wi 





10. ceneráció WV 


e 


A reprodukció (reproduction) az a folyamat, amikor egy string a következő generáció részeként 15 megjelenik, 
vagyis egy megoldás a következő generáció megoldás-halmazának 15 része marad. Egy adott stringnél a 
reprodukció, vagyis a túlélés bekövetkezésének valószínűsége a string jóságával van kapcsolatban. Minél 
nagyobb egy kromoszóma Jósága az egy populációba tartozó kromoszómák átlagos jóságához viszonyítva, annál 
nagyobb számban fog reprodukálódni a kromoszóma, vagyis annál nagyobb számban fog előfordulni a 
következő generációban. A reprodukciónak ezt a módját arányos kiválasztási mechanizmusnak nevezzük. 


A keresztezésnél (crossover) egy generáció két kromoszómája — a szülő kromoszómák — a tulajdonságaik 
keresztezése révén hoznak létre új tulajdonságú utódokat. Ilyenkor a szülők bitmintái kereszteződnek új 
bitkombinációkat hozva létre. Az utódok bitkombinációi részben az egyik szülő, részben a másik szülő 
bitkombinációit fogják tartalmazni. A keresztezés operátor legegyszerűbb formája az ún. egypontos keresztezés, 
amikor az adott generáció bitfüzérei páronként úgy hoznak létre utódokat, hogy egy bitfüzér-pár mindkét tagja 
egy véletlenszerűen kiválasztott pontnál szétválik, és az így létrejövő részstringek keresztbe kapcsolódva hoznak 
létre új stringeket. A folyamatot a 2.17 ábrán követhetjük. Megjegyezzük, hogy a szülő kromoszómákból az 
utód kromoszómák létrehozásánál a keresztezés a legegyszerűbb operáció. Bár a természetben nem található 
erre minta, genetikus algoritmusoknál a szülő kromoszómák komplex összekeverése is lehetséges. Ezen 
komplex operációkat rekombinációnak hívják, amelyek egy speciális, egyszerű esete a keresztezés [IRad93]. 


A mutáció (mutation) során egy string egy bitje véletlenszerűen, általában igen kis valószínűséggel 
megváltozik. A mutáció következtében teljesen új bitkombinációk jöhetnek létre, így megakadályozhatják a 
további, fejlődésre képtelen, egyöntetű populáció létrejöttét. Az új bitkombinációk a megoldási tér olyan 
területeit 15 feltérképezhetik, amelyekre az eddigi populációk nem terjedtek kt. 

Fentiek alapján az algoritmus a következő lépésekből áll: 


1. egy kromoszóma populáció véletlen generálása, 


2. a populáció minden kromoszómájának kiértékelése (a fitness értékek meghatározása), 
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3. új kromoszómák létrehozása a fenti három operátorral, 
4. az új ktromoszómák ktértékelése, 


5. az új populáció (a következő generáció) létrehozása azáltal, hogy a régi kromoszómák közül a 
leggyengébbeket az újak közül a legjobbakkal váltjuk fel, 


6. leállás: ha az eredmény elég Jó, nem folytatjuk az eljárást. 
A három operátor hatását az alábbi egyszerű példán követhetjük. 


2.4 Példa 


Tekintsünk egy 4 kromoszómából álló populációt, melyben az egyes kromoszómák (én) 10 bitesek. Legyen az 


—],2,3,8 


egyes bitstringek jósága (d: ; ) rendre 0,9; 0,6; 0,6 és 0,3. Ekkor a populáció átlagos jósága J 0,6 az 


egyes kromoszómák jóságainak az átlagos Jósághoz viszonyított értékei (9 vi ) pedig rendre 1,5; 1,0; 1,0 és 0,5- 
re adódnak. Ha a kiválasztás ezen értékekkel arányos valószínűség szerint történik, akkor az egyes stringek 


PEÍLL A 


reprodukciójának valószínűségei (4 , 14) 0,375; 0,25; 0,25 és 0,125. 


2.17. ábra - A keresztezés folyamata. 


ILI0011000111110000110 
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szülő stringek 


MLIO01L1000 5 /A100001111100 





Keresztezés 


I000LI10011F TLILL10000110 









































100 110001100001111100 


Utód stringek 





IO00LI00L1ÍLLLL10000110 


A szelekció — arányos kiválasztási mechanizmust alkalmazva — ezek után a következőképpen zajlik. Határozzuk 


meg az egyes kromoszómák relatív jóságait — a ?? értékeket — a populációt jellemző összeg-jósághoz 
viszonyítva. Osszuk fel a [0,1] intervallumot ezen relatív jJóságoknak megfelelő intervallumokra. Generáljunk a 
[0,1] intervallumban egyenletes eloszlású véletlen számokat és attól függően reprodukáljuk az egyes 
kromoszómákat, hogy a véletlen szám a [0.1] intervallum mely részintervallumába esik. 


Mivel a részintervallum-hosszak arányosak az egyes kromoszómák relatív jóságával, a reprodukció 
valószínűsége 15 arányos lesz ezekkel az értékekkel, vagyis az arányos kiválasztási mechanizmust valósítottuk 


meg és az egyes kromoszómák §: -vel arányos számban reprodukálódnak. A szelekciót követően a 


kromoszómák átlagos jósága növekedett: vá -0,75. 
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A kromoszómák alakulását az egyes operátorok alkalmazása után a 2.1 táblázat mutatja. Ugyancsak a 
táblázatból látható a keresztezés (egypontos: az ötödik és a hatodik bit között) és a mutáció hatása. A táblázatból 
az 15 látható, hogy a keresztezés hatására az eddigieknél Jobb képességű egyed (P3: f-1) keletkezhet, de az is, 
hogy a keresztezés a populáció 7 lagos jósá 7 nak stagnálását, a mutáció pedig az átlagos jóság stagnálását 11I. 


csökkenését 15 eredményezheti (  —0,7511I.  -0,6). 
5.2.3. A szkéma elmélet 


A genetikus algoritmusok valódi teljesítőóképessége Jobban megérthető, ha bevezetjük a szkéma vagy hasonló 
mintázat fogalmát [Hol75]. Ha két vagy több string hasonló képességekkel rendelkezik, akkor a stringek egy 


at pe 


hasonló mintázat vagy szkéma elnevezés, amely egy olyan részstringet jelöl, amelyben a 0 és 1 értékű biteken 
kívül dont care, közömbös bitek is lehetnek. Pl. a 8 hosszúságú 1F0FOL"" szkéma mindazon stringeket 
képviselni fogja, amelyekben ! található az első és a hatodik pozícióban, 0 a harmadikban és az ötödikben. A 
szkémák hossza megegyezhet a string hosszával, de legtöbbször annál kisebb. A szkéma fogalmának 
bevezetésével lehetőség nyílik annak bemutatására, hogy generációról generációra a jó tulajdonságú stringek 
száma — vagyis azon stringek száma, amelyekben Jó tulajdonságú szkéma található — az egyes populációkban 
hogyan növekszik. 


2.1. táblázat - A kromoszómák alakulása az egyes operációk után 


1IIIIII1I011 
OLIO01I01I011 
10000Ll1111 


0000011100 


I111111011 Szelekció után (P2) 
I111111011 
0110101011 


10000Ll1111 


1IIIIIIII111 Keresztezés után (P3) 
1IIIII1011 
0110101011 


10000II1011 


0111111011 Mutáció után (P4) 


1IIIIII1I011 


OLIOIII0O11 





10000Ll11011 


Vizsgáljuk meg, hogyan hatnak az egyes operátorok egy S szkéma előfordulási gyakoriságára a generációk 
függvényében. Ehhez vezessük be a következő jelöléseket: jelölje m(S,k) azon stringek számát, amelyek a k-adik 
generációban tartalmazzák az S szkémát, o(S) a szkéma rendjét (order), ami a szkémán belüli rögzített értékű 


bitek száma és 545) a szkéma meghatározó hosszát (definitive length), ami az első és utolsó rögzített bit 
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pozíciói közötti távolság. Pl. az előző szkéma (170701?) estében o(S)—4, ó(S) —5. A reprodukció során egy 
kromoszóma annál nagyobb valószínűséggel kerül kiválasztásra, minél nagyobb az adott kromoszóma jósága az 
egész populáció kromoszómáinak átlagos jóságához viszonyítva. 


Ha J: az i-edik kromoszóma jóságát jelöli, a reprodukció során egy stringet (kromoszómát) 


JÍ; 
lme zen 
2 


7" (2.136) 


valószínűséggel választunk ki. Ekkora valószínűséggel lesz tehát az i-edik kromoszóma eleme a következő 
generációnak. Ha kiválasztunk n kromoszómát a régi populációból, akkor az n elemű új populációban egy S 
szkémát tartalmazó stringek számát a következő összefüggés adja meg: 





mel. kr] — (Sat — ms SZ 
d (2.137) 
— 1] 
Taco 
mivel Ba 


az n elemű új populáció átlagos jósága. Itt f(S) az S szkéma 


jóságát, vagyis azon stringek átlagos jóságát jelöli, melyekben az S szkéma megtalálható. Ez azt jelenti, hogy 
azok a szkémák, amelyek jósága nagyobb, mint a populáció átlagos jósága, az új generáció kromoszómáiban 
növekvő számban lesznek megtalálhatók, míg az átlagosnál gyengébb képességű szkémák jelenléte az új 


generációban csökken. Ha (9-11094 , ahol c konstans, akkor k generációt követően az S szkémát tartalmazó 
kromoszómák száma: 


(ey 


m(S, k)-m(S,0) , (2.138) 


vagyis a szkémák túlélése a generációk függvényében exponenciálisan nő (c50) vagy csökken (cc). 


A szkémák előfordulási gyakoriságát befolyásolja a további két operátor 15. Mind a kereszteződés, mind a 
mutáció következtében egy szkémát alkotó bitstring megváltozhat, a szkéma széteshet, aminek következtében 
egyes kromoszómákból az addig meglévő szkéma eltünik. Egy szkéma túléli a kereszteződést, ha a 


kereszteződési pont kívül esik a szkéma bitcsoportján. Ha ! a kromoszóma hossza és ?" a keresztezés 
bekövetkezésének valószínűsége, az egypontos keresztezésnél a túlélési valószínűség : 


Pe 21—p ös) 
7-1 . (2.139) 


A mutáció is elronthat egy szkémát azáltal, hogy a szkéma egy rögzített bitjét megváltoztatja. Ha fs egy bit 
véletlen megváltozásának valószínűsége, akkor a túlélési valószínűség: 


a (5) 
Pa 7-(1— Pad 0 51—el5) Ea (2.140) 


mivel fm ca1. 


Feltételezve, hogy a keresztezés és a mutáció azon hatása, hogy egy szkémát elrontanak egymástól független, 


valamint elhanyagolva a fs" -t tartalmazó tagot, a három alap-operátor hatását figyelembe véve egy adott S 
szkéma előfordulása a következő generációban az alábbi összefüggéssel adható meg: 


f (5) 


m(s.ke) zm(8. 1-9 55) 


hai -o(5) pu 





. 2.141) 


A (2.141) összefüggést, ami Holland szkéma elméletének eredménye, a genetikus algoritmus alaptételének 
nevezzük. 
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A mutáció, illetve a keresztezés hatására azon szkémák esnek szét nagyobb valószínűséggel, amelyek rendje, 
illetve meghatározó hosszúsága nagyobb. Ha egy szkémát tartalmazó kromoszóma jósága az átlag jóságnál 
nagyobb és a szkéma rövid, továbbá, ha szkéma rendje 15 kicsi, akkor a szkémát tartalmazó kromoszómák száma 
a generációk függvényében közel exponenciálisan nő. 


A reprodukció és a keresztezés operátorok hatása az evolúció során a 2.18 ábrán követhető. Az ábrán eltérő 
árnyalatú bitcsoportok jelölik a szkémákat. Az egyes bitsorozatok mellé írt értékek a stringek jóságát jelentik. A 
legkevésbé megfelelő stringek — amelyek jósága a legkisebb — nem kerülnek át a következő generációba; az 
ábrán X jelöli ezen kromoszómákat. Az ábra azt is illusztrálja, hogy egy stringen belül több szkéma is 
előfordulhat. Ha több, kedvező tulajdonságokat reprezentáló szkéma a keresztezés hatására egy utód stringben 
együtt jelenik meg, lehetséges, hogy a keresztezés hatására a szülő stringeknél nagyobb jóságú utód jön létre. 


2.18. ábra - A szkémák megjelenése az egyes generációk populációiban 
következő populáció 
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A genetikus algoritmusok alkalmazása különösen ott célszerű, ahol a keresési tér nagy, komplex és kevéssé 
ismert, illetve, ahol a kritérriumfüggvény jellege olyan, hogy más, pl. gradiens alapú eljárások nem 
alkalmazhatók. A keresési tér mérete ugyanakkor befolyásolja a genetikus algoritmus számításigényét, hiszen 
nyilvánvaló, hogy nagyobb keresési tér több elemű populációt igényel. 


Tipikus feladatoknál a populáció elemszáma néhányszor tíztől több ezerig 15 terjedhet. A viszonylag nagy 
elemszám számos területen gátja a genetikus algoritmusok alkalmazásának. A populáció elemszámának 
meghatározásán túl fontos kérdés az algoritmus egyéb paramétereinek megválasztása. Ilyen további paraméterek 


pl. a keresztezés típusa (egypontos vagy többpontos keresztezés) és valószínűsége " , a mutáció valószínűsége 


Pm, stb. A paraméterek megválasztására általános eredmények jelenleg nincsenek. A paraméterválasztás 
alkalmazástól függően, tapasztalati úton történik. Ugyancsak alkalmazástól függ, hogy hogyan képezzük le egy 
adott problémánál a feladat paramétereit számfüzérekké, kromoszómákká. 


Fontos kérdés még az algoritmus leállítása. A leállítás megtörténhet adott számú generáció után, illetve, ha az 
eredmény már elég Jó, vagyis az utolsó generáció kromoszómárnak átlagos jósága egy adott értéknél nagyobb. 
Az algoritmust azonban le kell állítani akkor is, ha egy populáció stringjei nagymértékű hasonlóságot, 
homogenitást mutatnak. Ebben az esetben — függetlenül a populáció átlagos jóságától — a kromoszómák jósága a 
további generációk során már nem fog javulni, az algoritmus megreked. 
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Tanulás adatokból 


A túl korai konvergenciát eredményező egyöntetű populáció kialakulásának esélyét a reprodukció előbb említett 
módja -— vagyis amikor egy kromoszóma továbbélése annak jóságával arányos —-— növeli. Ennek 
megakadályozására számos módosított eljárást dolgoztak ki, melyek közös jellemzője, hogy nagyobb esélyt 
adnak a rossz stringek továbbélésének. E módszerek részletes ismertetésére itt nincs módunk, az érdeklődő 
olvasó a részleteket az irodalomban pl. [Gre87], [Gal89], IMon89] megtalálja. 


Feladatok 
2.1 Mutassa meg, hogy az N-dimenziós térben a lineáris szeparáló függvények VC-dimenziója h-N--1. 


siniax] 


2.2 Adjon szemléletes példát, amely azt mutatja, hogy az 97 , 20 függvények VC-dimenziója végtelen. 


2.3 Tekintsük a négyszögletes indikátorfüggvények osztályát, ahol egy indikátorfüggvényt a következőképpen 
definiálunk: 


jf(íx.c,di—1 akkor és csak akkor, ha [x- e, [E d, El 2 sa 


ahol c egy középpont-vektor, d pedig a koordináta tengelyekkel párhuzamos elhelyezkedésű négyszög 
szélességvektora. Mutassa meg, hogy ennek a függvényosztálynak a VC-dimenziója h-2N. 


2.4 Mutassa meg, hogy a legmeredekebb lejtő módszerrel dolgozó szélsőérték-kereső eljárás konvergens, ha 
NEG ös ME 


mu , Van-e a konvergenciasebesség szempontjából optimális u? Ha igen, határozza meg. 


2.5 Az LMS eljárás a pillanatnyi gradiens alapján dolgozik. Mutassa meg, hogy az LMS eljárás eredménye 
torzítatlan becslése a legmeredekebb lejtő eljárással kapott eredménynek, vagyis a súlyvektor várható értéke a 
Wiener-Hopf megoldáshoz tart. 


2.6 Az LMS eljárásnál a bemenet autokorrelációs mátrixa a következő: 
lb űá 
R — 
ü5 1 
Határozza meg a tanulási tényező, u konvergenciatartományát. 


2.7 A következő regularizált kritériumfüggvényt alkalmazza: 


CC íw Tr ea Vw; 
h. i 


ahol d" a kívánt válasz és y9 a kimenet a k-adik tanítópontra k—1,..., P. Határozza meg a pillanatnyi gradiens 
alapú tanítási összefüggést, ha egy y-sgm(wTx) kapcsolatot megvalósító rendszer paramétervektorát kell 
tanítanla. 


2.8 Hogyan befolyásolja az LMS eljárás konvergencia-sebességét a Anazz E Ámán arány, ha Ana ÉS An a bemeneti 
jel autokorrelációs mátrixának legnagyobb illetve legkisebb sajátértéke? 


2.9 Milyen esetben és hogyan alkalmazható a Karhunen-Loéve transzformáció az LMS eljárás konvergencia- 
sebességének növelésére? 


2.10 A genetikus algoritmus alaptétele ((2.141) egyenlet) megadja az S szkémát tartalmazó kromószómák 
számának alakulását a generációk függvényében. Az összefüggés arányos kiválasztási mechanizmust alkalmazó 
reprodukció mellett származtatható. Definiáljon más kiválasztási mechanizmust és határozza meg a megfelelő 
módosított alaptételt. 


kés f [x) - x sin 327] függvény maximális értékét, ha 
xe[0.] 
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3. fejezet - Az elemi neuron 


A fejezet célja, hogy részletesen bemutassa a leggyakrabban alkalmazott, ellenőrzött tanítással tanítható 
hálózatok alapelemét, az elemi neuront, valamint a neuron szabad paramétereinek meghatározását eredményező 
tanuló eljárásokat. Az itt bemutatásra kerülő elemi neuron a természetes (biológiai) neuron, az idegsejt bizonyos 
tulajdonságait megragadó modelljének 1s tekinthető. 


Amikor elemi neuronról beszélünk, valójában két neuron-modellről van szó, melyek annak ellenére, hogy a 
felépítésük gyakorlatilag azonos, mind tanításukban, mind működésükben különböznek. A fejezet a közös 
felépítés ismertetésén túl bemutatja a kétféle tanuló eljárást, és azt 15, hogy a kétfajta neuron mennyiben 
rendelkezik eltérő képességekkel. 


Mindkét neuronmodell a 2. fejezetben bemutatott, statikus, memória nélküli 
p- fee (31) 


nemlineáris leképezést megvalósító hálózat, amely először a bemeneteire kerülő jelek súlyozott összegét képezi, 
majd a súlyozott összegre egy nemlineáris függvényt alkalmazva állítja elő a skalár kimenetet. A súlyozó 
együtthatók vektora, w képezi a neuron szabadon beállítható paramétereit, mely paraméterek megfelelő 
megválasztásával, beállításával módosíthatjuk a neuron által megvalósított leképezést. 


A kétféle elemi neuront szinte egyidőben javasolták, mint neuron modelleket: Frank Rosenblatt 1956-ban 
javasolta [Ros58] a róla elnevezett Rosenblatt perceptront, míg Bernard Widrow 1959-ben [W1d60] az adaline-t 
(adaline- adaptive linear neuron). 


A perceptron egyike a legelső és a legegyszerűbb mesterséges neurális hálózatoknak. Az előrecsatolt, többrétegű 
hálózatok olyan speciális változatának tekinthető, amely egyetlen rétegből és azon belül egy vagy több 
processzáló elemből áll. Mind a Rosenblatt perceptron, mind az adaline valójában egy egyrétegű, egy 
processzáló elemből álló előrecsatolt hálózat. 


1. A Rosenblatt perceptron 


A Rosenblatt perceptron vagy egyszerű perceptron egy olyan hálózat, amely képes arra, hogy — megfelelő 
beállítás, tanítás után — két lineárisan szeparálható bemeneti mintahalmazt szétválasszon. A lineáris 
szeparálhatóság azt jelenti, hogy a bemeneti mintateret egy síkkal (hipersíkkal) két diszjunkt tartományra tudjuk 
bontani úgy, hogy a két tartomány eltérő osztályba tartozó bemeneti mintapontokat tartalmazzon. Az egyszerű 
perceptron tehát kétosztályos esetekben lineáris osztályozási feladatok ellátására alkalmas. A későbbiekben az 
egyszerű perceptront továbbfejlesztették több-elemű, ill. többrétegű hálózatokká (multilayer perceptron, MLP), 
amelyek képességei az egyszerű perceptron képességeit messze felülmúlják. 


Az egyszerű perceptron felépítéséből (3.1 ábra) látható, hogy ez egy lineáris kombinációt megvalósító hálózat, 
amelynek a kimenetén egy küszöbfüggvény-nemlinearitás szerepel, vagyis valójában egyetlen memória nélküli 
processzáló elem. 


3.11. ábra - Az egyszerű  perceptron felépítése a  hibaképzéssel és a 
paramétermódosítással 
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HK] 
"Bináris kiménet" 
(t1.-1) 


xi) ( i gwík 7 


Paraméter J 
módösítő ; 
algoritmus 






cik) a j. ell) 


(ky - wix() vik) senísík)) ak d(k)-vik) 


A küszöbfüggvény a lineáris kombináció eredményeként kapott súlyozott összeg (s) előjelét szolgáltatja 
kimeneti jelként. 


jú (dx) sg [d] - sgn(5] 32) 


ahol sgn(.) az előjelfüggvény (szignum függvény). 


A perceptron bemenetére az x (M1-1)-dimenziós vektor kerül, ahol az xi, ... , xv bemeneti komponensek jelentik 
a tényleges bemenőjelet, x, pedig az ún. eltolás (bias) értéket. A bias szerepe azt biztosítani, hogy a kimenet 
előjelváltása ne feltétlenül a nulla bemeneti vektornál, hanem a kívánt leképezésnek megfelelő bemeneteknél 
történjen. A tényleges bemenet dimenziója tehát N, az eltolásérték figyelembevételével kapott x dimenziója 
pedig N-1. 


A tanítás során a megfelelő elválasztó felület meghatározása a cél, vagyis azon w súlyvektor meghatározása, 
kialakítása, amely mellett az egyik osztálybeli bemeneti adatokra a lineáris kombináció eredménye pozitív, míg 
a másik osztálybeli pontokra negatív. Az elválasztó felületet azon bemeneti pontok határozzák meg, ahol 
5-w x- 0. Az elválasztó felület a bemeneti mintatérben tehát egy, az origón átmenő, a súlyvektorra (w) 
merőleges sík (hipersíik). 


Felmerül a kérdés, hogy mi történik, ha a bemeneti mintapontok nem választhatók szét lineáris felülettel. Ebben 
az esetben nyilvánvaló, hogy semmilyen tanító eljárással sem kaphatunk olyan hálózatot, amely az osztályozási 
feladatot tökéletesen megoldja. Ilyenkor a feladat lineárisan nem szeparálható, s így a perceptron az ilyen 
feladatok megoldására alkalmatlan. Természetesen elképzelhető egy olyan megoldás 15, amelynél az elválasztó 
hipersik a mintapontok többségét helyesen választja szét, de — a bemeneti adatok elhelyezkedésétől függően — 
lesznek olyan mintapontok, melyekre a hálózat rossz választ ad. Ebben az esetben nyilván az a célunk, hogy a 
hibásan osztályozott adatok számát minimalizáljuk. 


A továbbiakban a hálózat működését úgy vizsgáljuk, hogy a bemenetről feltételezzük a lineáris 
szeparálhatóságot. E feltételezés mellett megmutatjuk, hogy a perceptron a lineáris szeparáló felületet véges 
számú tanuló lépés alatt megtalálja. 


1.1. A perceptron tanulása 


" azon bemeneti mintapontok halmazát, amelyek az (1) 


Vezessük be a következő jelöléseket. Jelölje £ 
osztályba, X" pedig azon bemeneti mintapontok halmazát, amelynek elemei a (2) osztályba tartoznak, és 
tételezzük fel, hogy mind X" , mind XV! véges számú vektort tartalmaz. Jelöljön továbbá w egy olyan 


súlyvektort, amely mellett a hálózat jól osztályoz, vagyis W "50, ha sex"! és w"x cO, ha xex, 
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A hálózat tanítását a következőképpen végezzük: egyenként vegyük sorra az összes bemeneti mintapontot, 
határozzuk meg mindegyik lépésben a hálózat válaszát, és az alábbi összefüggés szerint módosítsuk a 
súlyvektort: 


w(rj-wír-11ral[dí£j-pikilx[kj-w(k-ljtae[kix[ki (3.3) 
A súlymódosítás (3.3) összefüggése formailag megegyezik az előző fejezetben bemutatott LMS algoritmussal, 
ha az Itt szereplő £ -t megfeleltetjük az LMS algoritmus u tanulási tényezőjének. Az egyezés azonban csak 
formai, ahogy ez a következőkből kiderül. Amennyiben mind d(k), mind y(k) csak két értéket (-1 vagy 0 és 1) 
vehet fel, és a értékét 1-re választjuk, hibás válasz esetén e(X) abszolút értéke 15 csak két lehetséges konstans 
érték (2, ill. 1) egyike lehet, míg a hiba előjele a tényleges értékektől függően változik; vagyis valójában a 
pillanatnyi bemenőjel konstans-szorosával történik a súlykorrekció: 


w [k]-w 4-1) ralglx[k (3.4) 


ahol AE) értéke 2, ill. 1 lehet. 


A súlymódosítás ez utóbbi formája mutatja, hogy a formai hasonlóság ellenére itt valóban nem az LMS 
algoritmussal van dolgunk, vagyis a súlymódosítás nem egy hibafelület negatív gradiensének irányában történik, 
hanem a súlyvektort egyszerűen a helytelenül osztályozott bemenővektorral arányosan módosítjuk. Ez a 
módosítás szemléletesen azt jelenti, hogy a súlyvektort a hibásan osztályozott bemeneti vektor irányában (vagy 
azzal ellentétes irányban) elforgatjuk, s így a módosítás után a skalár szorzat a kívánt értékhez közelít. 


A tanító lépés során a súlyvektort olyan módon változtatjuk, hogy a módosított súlyvektorral a hálózat válasza a 
helyes értékhez közelítsen. A tanítás hatását a súlyvektorok terében a 3.2 ábrán követhetjük nyomon. A 
súlyvektorok terében minden bemenővektor egy hipersíkot (kétdimenziós súlytérben egy egyenest) határoz meg. 
Az egyenes pontjai egyben azon súlyvektorokat 15 megadják, amelyek mellett a bemenővektor és a súlyvektor 
skalár szorzata zérus, vagyis az egyenes merőleges a bemeneti mintavektorra. (Másképp fogalmazva a 
mintavektort a súlytérben olyan hipersíkkal reprezentáljuk, amelynek normálvektora épp a mintavektor.) A 
hipersik (egyenes) negatív oldalán elhelyezkedő súlyvektorok esetén a hálózat kimenete -1 lesz, míg ha a 
súlyvektor az egyenes pozitív oldalán található, akkor a hálózat válasza 7-1. 


Súlymódosításra akkor van szükség, ha az aktuális súlyvektor egy tanítópont által meghatározott hipersíknak 
(egyenesnek) nem a tanítópont osztályának megfelelő oldalán helyezkedik el, vagyis a skalár szorzat nem 
megfelelő előjelű. Ilyenkor a súlyvektort olyan módon változtatjuk, hogy a skalár szorzat a módosított 
súlyvektorral megfelelő előjelű legyen — a súlyvektor a hipersik megfelelő oldalára kerüljön —, vagy legalábbis a 
súlyvektort a helyes irányba mozdítsuk. 


Az ábra azt a feltételezett esetet mutatja, amikor három tanítópontunk van, amelyek közül xi és x; £" elemei, 
míg x, XI" eleme, vagyis Y "5 0, ha í—1 és 3, ill. Y "c 0, ha i-2. A w" megoldásvektornak tehát a súlytérben 
az Xi. és X; tanító pontokat reprezentáló egyenesek ML) pozitív oldalán, míg az x.-t reprezentáló egyenes ( 


) negatív oldalán kell elhelyezkednie. Ezeket a feltételeket a súlytérben árnyékoltan jelölt területet pontjai 
elégíti ki, tehát a megoldásvektornak ezen területen belül kell lennie. 


A súlyvektor lépésenkénti módosítását az ábrán követhetjük. x,. esetében pl. módosításra van szükség, hiszen 


w Dx:5 0, holott £: no , tehát negatív eredményt kellett volna kapnunk. A súlyvektor értékét x.-vel arányosan 
csökkentenünk kell. E módosítás következtében létrejött w(2) súlyvektor viszont rosszul osztályozza Xx;-at, tehát 
ismételt módosításra van szükség, ezúttal a súlyvektorhoz egy, az X:-mal arányos vektort kell hozzáadnunk. Az 
eljárást így kell folytatnunk mindaddig, míg az összes tanító vektorral megfelelő előjelű skalár szorzatot nem 
kapunk, vagyis, amíg a megoldás-tartományon belülre nem kerül a súlyvektor. Az ábrán ez w(5)-nél következik 
be. 


3.2. ábra - Súlymódosítás a perceptron tanításánál 
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w" a k-adik tanító pont 
által meghatározott egyenes 


rap. 
wa 
[ ag a PF og 


kh.) 


§ 
j.] 
ST 


X1 


Win 





w(0) 
(kezdeti súlyvektor) 


A továbbiakban megmutatjuk, hogy a perceptron a lineáris szeparáló felületet véges számú tanuló lépés alatt 
megtalálja. 


A bizonyítás azon alapul, hogy [e ral növekedése két korlát közé szorítható: egyrészt [e ral ca6" kM, másrészt 
iga! 

I Col z FT z 

§ , ahol M a bemeneti mintavektorok normanégyzetének felső korlátja: kel sa , b pedig a 

megoldás-súlyvektorra vonatkozó 








w"x z2zb:0, ha X € xi 

ÉS 

w"x, £-570, ha X € xŰ) 
feltételek kis pozitív konstansa. 


1.2. A perceptron tanulás konvergenciája 


Az egyszerűbb tárgyalás kedvéért a kiinduló tanítópontokból alakítsunk ki egy módosított mintahalmazt, E" -ot, 
ami az X" -beli pontokból és az X""-beli pontok mínusz egyszereséből áll. Ez azt jelenti, hogy "xeX"" -ra 


w "x2b5 0 kell teljesüljön, vagyis a módosított tanítóhalmaz minden elemére igaz, hogy a megoldás súlyvektor 
által meghatározott sík pozitív felén fog elhelyezkedni. 


Tanító lépésre akkor van szükség, ha a pillanatnyi súlyvektor a bemenetre kerülő mintavektort nem megfelelő 
osztályba sorolja, vagyis, ha bármely xeX"" -ra a pillanatnyi súlyvektorral végzett skalár szorzat WissiTasb A 


módosított mintahalmazzal végzett tanítás esetén 


wlk)-wlk-U-rax(k] (35) 
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ahol x(X) tehát a k-adik tanító lépésben a perceptronra kerülő olyan minta, amit az aktuális súlyvektor mellett a 
perceptron rosszul osztályoz. Minden korrekciós x-:0:ben a pillanatnyi (módosított) bemenővektor 


konstansszorosát adjuk a súlyvektorhoz, ahol most már 


A módosított tanító pontok felhasználása során képezzünk egy képzeletbeli listát, amelybe csak azok a tanító 
pontok tartoznak, amelyeket az adott lépésben a hálózat hibásan osztályoz. Ez azt jelenti, hogy ha w(k-1) jelöli a 
k-adik lépésben az aktuális súlyvektort és x(£4) a képzeletbeli listának azt az elemét, amit a k-adik lépésben 


ee yr új izte kel r § r gr f adi Tf .. Ég Tf f r § , 
veszünk elő, akkor " (-1x(k] 50 adódik, tehát súlymódosításra van szükség. A tanítás során a listában az 


eredeti mintahalmaz minden eleme akárhányszor előfordulhat. 


Kövessük végig a súlyvektor alakulását feltételezve, hogy a kiinduló érték " 01-00 A első, a második, ill. a k- 
adik lépésben kialakuló súlyvektor ennek megfelelően: 


wv [1 -ax[1] 


ív (21- wíl]tax(2]- ax [x (dj-rx(2)] 
(3.6) 


esünk aa) 


[d]w 


, 
Képezzük a " skalár szorzatot: 


w" [kiw" s IR Ü wtrx (297 w F...Fx(kj w z 


E ahh 
(8.7) 


Felhasználva a Schwartz egyenlőtlenséget 


kid 


amiből adódik, hogy: 


[2 ív" (kjwtj oz atkibi 








(3.8) 





kem Sz 
j" j (3.9) 


vagyis, a súlyvektor normanégyzete legalább a lépésszám négyzetével arányosan nő. 








A súlyvektor normanégyzetére ugyanakkor felső korlát 15 állítható, ugyanis 
w [de] -w [d-11-4ax [de] , (3.10) 
így felírható, hogy 
r 1 
keret —- lex 0l Aze fee (jee) e ezt [orei . G11) 


T (k- I x[r) £ 


Mivel tanító lépésre azért van szükség, mert " ü , ebből következik, hogy 


köl -krk-n ze zal . (3.12) 
Amennyiben a kezdeti súlyvektor hossza nulla, vagyis " MS , a fentiekből adódik, hogy 


Iw (XI £ a ző £ ek EB) 


feltéve, hogy kunduló megállapításunk, miszerint az összes tanító vektor normanégyzete felülről korlátos, igaz. 
Ez azt jelenti, hogy a vektor normanégyzete nem nőhet a lépésszámmal arányosnál gyorsabban. A két korlát 
összevetéséből következik, hogy véges számú lépés után az eljárásnak le kell állnia. 
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A tanító lépések számának felső korlátja, Pasa arányos a bemeneti vektor dimenziójával, de nem függ a 
tanítópontok számától. Természetesen egy tényleges tanító eljárásnál a konvergencia ideje függ a tanítópontok 
számától, hiszen minél több tanítópontunk van, annál több pontra kell elvégezni az ellenőrzést, hogy vajon a 
pillanatnyi x lyvektor mellett a hálózat már helyesen működik-e. Azt 15 látn e : 0 ?Il, hogy a konvergencia ténye 
nem függ értékétől, hisa n csupán annyit kötöttünk ki, hogy legyen . A konvergencia sebességét 
azonbana nár befolyásolja —— megválasztása. Így a perceptron tanulásnat különböző változatai alakultak ki, 
melyek megválasztásában térnek el. Az eddig bemutatott tanulásnál —— előre rögzített kons a 15, ezért ezt 
szokás fix növekményes tanulási szabálynak 15 nevezni, szemben a lépésenként változó -t használó 
módszerekkel. Minthogy elvi különbség ezen módszerek között nincs, a változó növekményes eljárásokat nem 
részletezzük. A különböző perceptron tanulási változatok részletes bemutatása megtalálható pl. a következő 
irodalmakban: [Nil65], [Has95], [Vee95]. 


1.3. A perceptron kapacitása 


Mint a neurális hálózatok többsége, a perceptron is felfogható, mint egy asszociatív memória. A hálózatnak 
bizonyos bemenetekre kell jó válaszokat adnia, asszociálnia, amelyet úgy érünk el, hogy a hálózat súlyainak 
meghatározásához tanítópontokat használunk fel. Valójában tehát a tanítópontok felhasználása úgy 15 felfogható, 
mint egy tárolási folyamat, ahol a tanítópontokat valamilyen módon a hálózat súlyaiban tároljuk. Felmerül a 
kérdés, hogy hány tanítópont tárolható a hálózatban úgy, hogy a háló a megkívánt működést mutassa, illetve 
általában milyen válaszokat ad a hálózat egy megtanított esetben. Erre a kérdésre ad feleletet a hálózatok 
kapacitása. Az alábbiakban a perceptron kapacitását vizsgáljuk [CovóS]. 


A perceptront eddig úgy mutattuk be, mint egy olyan egyszerű hálózatot, amely az N-dimenziós mintateret egy 
(N-1)-dimenziós hipersíikkal két tartományra tudja bontani. A perceptron szeparáló képességével kapcsolatban a 
következő kérdés merül fel: hány, két különböző osztályból származó pontot helyezhetünk el véletlenszerűen 
egy N-dimenziós mintatérben akkor, ha azt kívánjuk, hogy a két osztály pontjai egy hipersíkkal szétválaszthatók 
legyenek. Másképp fogalmazva: N-dimenziós bemeneti pontok esetén, P véletlenszerűen kiválasztott pont 
mellett 2" kétosztályos szeparálás — vagyis amikor a pontok egy részéhez --1-et, a többihez -1-et rendelünk — 
lehetséges; kérdés, hogy a 27" lehetőség közül hány olyan eset van, amikor a két osztályba tartozó pontok 
elválasztása hipersíkkal megtörténhet, tehát amikor a szeparálási feladatot egy perceptron meg tudja oldani. 


Jelöljük ezen esetek számát L(P,N)-nel. Definiáljuk a perceptron kapacitását úgy, mint a lineárisan szeparálható 
kétosztályos esetek számának és az összes kétosztályos eset számának arányát, vagyis C(P,N)-L(PN)I 2" . 
Megmutatható, hogy a kapacitás a következő összefüggéssel adható meg: 


1 ha PEN 

C(P,W) - 

e ciói ál ha Ps N 
— a 
dí i 


(3.14) 
A kapacitás meghatározásának részletes bemutatásától eltekintünk (az érdeklődő olvasó a részletes 


származtatást például a [Her91] irodalomban megtalálja). A kapacitás alakulását a PXAN1-1) arány függvényében 
a 3.3 ábrán mutatjuk be. 


3.3. ábra - A perceptron kapacitásának alakulása 
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0 l 2 3 a EN 


Látható, hogy ha N elég nagy, akkor Pc2N esetében gyakorlatilag az összes kétosztályos szeparálás lineáris 
szeparálás, míg ezen érték fölött lineáris szeparálás egyre kevésbé lehetséges: ha P/N552 a lineárisan 
szeparálható esetek száma nullához tart. Az is látható, hogy, ha 5" , akkor C(P, N)-1, vagyis, ha a 
mintapontok száma nem nagyobb, mint a bemeneti tér dimenziója és a pontok általános elhelyezkedésűek, a 
lineáris szeparálás mindig lehetséges, bármilyen módon 1s rendeljük a pontokat a két osztályhoz. A pontok 
akkor és csak akkor általános elhelyezkedésűek, ha (") P5sN és a P pontból nem tudunk kiválasztani N--1 olyan 
pontot, melyek egy (WN-1)-dimenziós hipersíkon helyezkednek el; illetve, ha ("") PSN és a P pont nem 
helyezkedik el egy N-2 dimenziós hipersíkon. 


A perceptron kapacitásra vonatkozó eredmény alapján látható, hogy ha a tanítópontok száma a pontok 
dimenziójához képest elegendően nagy, akkor a mintapontok lineárisan nem lesznek szeparálhatók. A gyakorlati 
problémák döntő többsége lineárisan nem szeparálható feladat, vagyis az egyszerű perceptronnal nem 
megoldható. 


A perceptron kapacitás meghatározásának a jelentősége az, hogy ezáltal megmutatható, hogy a bemeneti 
szeparálandó pontok számához viszonyítva kellően nagyra választva a bemeneti tér dimenzióját — ami azt 15 
jelenti egyben, hogy kellően nagyra választva a perceptron súlyainak számát — a kétosztályos feladatok 


ellá Ae 


használhatjuk (ld. pl. a bázisfüggvényes hálózatokat, melyeket a 6. fejezet mutat be). 


2. Az adaline 


A küszöbfüggvényt alkalmazó perceptronon kívül az előbbi hálózat különböző változatai 1s elterjedtek. Ezen 
változatokban a különbség a kimeneti hiba értelmezésében, illetve a kimeneti nemlinearitásban és ebből 
következően a tanulási eljárásban van. A perceptronnal lényegében megegyező felépítésű hálózat az adaline, 
amely csaknem egyidős a perceptronnal és amelyet Bernard Widrow és munkatársai javasoltak [Wid60]. A két 
hálózat közötti alapvető különbség a hiba értelmezésében és a háló tanításában van. Míg a Rosenblatt-féle 
perceptronnál a hálózat tényleges kimenetét hasonlítjuk össze a kívánt válasszal, addig az adaline-nál a lineáris 
kombináció eredményét, tehát egy lineáris hálózatrész kimenetét vetjük össze egy kívánt jellel (Id. 3.4 ábra). (A 
hálózat elnevezése 15 ezt tükrözi: adaline — adaptive linear element, vagy adaptive linear neuron.) A hálózat 
tényleges kimenete azonban Itt 15 egy küszöbfüggvény nemlinearitás után kapható. 


2.1. Az adaline tanítása 


Mivel a hiba szempontjából a lineáris kimenetet tekintjük az adaline kimenetének, a kimenet a paraméterek 
lineáris függvénye és négyzetes hiba estén a kritériumfüggvény kvadratikus felületet jelent. Az adaline 
tanításánál tehát alkalmazhatók a 2.5.1. alfejezetben bemutatott eljárások. Az adaline súlyvektorának optimális 
értékét tehát akár analitikusan, a Wiener-Hopf egyenlet alapján, akár gradiens alapú iteratív eljárással 
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meghatározhatjuk. Az iteratív gradiens alapú eljárások közül is leggyakrabban az LMS algoritmust 
alkalmazzuk, annak nagyfokú egyszerűsége miatt. 


3.4. ábra - Az adaline felépítése a hibaképzéssel és a paramétermódosítással 
sík) - w"xík vik) — senísíik)) aki díkI-5k) 
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A Wiener-Hopf egyenlet a négyzetes hiba várható értékének minimumához tartozó paraméter-vektort 
eredményezte, az LMS algoritmusról pedig láttuk, hogy olyan iteratív eljárás, amely mindig a pillanatnyi 
négyzetes hiba csökkentésének irányában módosítja az aktuális paramétervektort. Azt 1s láttuk, hogy a hiba 
várható értékét csak becsülni tudjuk, mivel a mintapontok eloszlását általában nem ismerjük. A mintapontok 
eloszlásának ismerete nélkül kritériumfüggvénynek a mintapontokban meghatározható négyzetes hiba átlagát 
vagy összegét tekinthetjük: 


1. 2 
Ow a Z-T 2 ig) 


Adaline-nál a lineáris kapcsolat miatt fév.31-w"x — Az átlagos négyzetes hiba ilyenkor felírható az alábbi 
mátrixos formában IS: 


Crw) - (d— Xwi (d —- Xwi (3.16) 


ahol d a tanítópontokbeli kívánt válaszokból képezett P elemű oszlopvektor, X a bemeneti vektorokból képezett 
mátrix 


sa] (3.17) 
w pedig a keresett paramétervektor. A megoldásvektor ideális esetben azt biztosítja, hogy 
4d-Aw (3.18) 
vagyis egy lineáris egyenletrendszert kapunk. A lineáris egyenletrendszer megoldása 
w-X.-d (3.19) 
amennyiben X inverze létezik. X" létezésének szükséges feltétele, hogy X kvadratikus mátrix legyen. (3.17) 
alapján látható, hogy X P sorból és N-1 oszlopból áll. A sorok száma az egyenletek számát, az oszlopok száma 


az ismeretlenek számát adja meg. Inverz csak akkor létezhet, ha P-N--1, sőt még így 1s csak akkor, ha X rangja 
teljes, vagyis MN7-1. Ez akkor áll elő, ha pont annyi tanítópontunk van, mint ahány ismeretlen súly található a 
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hálózatban továbbá, ha a bemeneti vektorok lineárisan függetlenek egymástól. Ha az inverz nem létezik, a 
pszeudo- vagy Moore-Penrose inverz alkalmazható, amikor 15 a megoldásvektort az alábbi formában kapjuk: 


Hsgefn fasta "kzt 
w"-XIa-ÍX7XI XA (3.20) 
Vegyük észre, hogy ugyanerre a megoldásra jutunk, ha a (3.16) összefüggés gradiensének nulla értékét biztosító 
paramétervektort határozzuk meg: 


PO) axTA42XTEw —0 


(3.21) 





Ugyanis ekkor eredményként a normál egyenletnek nevezett összefüggést kapjuk: 


4"X2w- Xi (3.22) 


melyből a megoldásvektor a keresett paraméter LS becslése, amely megegyezik (3.20)-szal: 


w -ÍXX] Xi (3.23) 
Vegyük észre azt 15, hogy a (3.23) összefüggés megfeleltehető a Wiener-Hopf egyenletnek, mivel XX az 
R-E(Xxx"; autokorrelációs mátrix, Xd pedig a p-E(xd; keresztkorrelációs vektor becslésének tekinthető. 


A két elemi neuron összehasonlításánál meg kell állapítanunk, hogy a felépítésük azonossága mellett több 
szempontból 1s jelentős különbségeket mutatnak. A perceptron és az adaline tanítása alapvetően eltérő még 
akkor is, ha a perceptron tanulás (3.2) összefüggéssel megadott iteratív eljárása formailag megegyezik az LMS 
algoritmussal. A perceptron tanulás egy hibakorrekciós eljárás, ahol — lineárisan szeparálható mintapontok 
esetén — a konvergencia bármely £ 7 0 mellett biztosított, míg az LMS algoritmus egy pillanatnyi gradiensen 
alapuló gradiens eljárás. Ennek konvergenciáját már szigorúbb feltétel biztosítja, hiszen itt a tanulási tényezőre a 
(2.69) összefüggésben megadott felső korlátnak 15 érvényesnek kell lennie. 


A hiba értelmezésénél, illetve a tanításnál lévő különbségek mellett a számítási képességet tekintve 1s 
különbözik az adaline a Rosenblatt perceptrontól. Az adaline bármely feladat megoldásánál használható, és 
minden esetben megoldást ad. Tehát nem kell kikötnünk, hogy a megoldandó feladat lineárisan szeparálható 
legyen. Ugyanakkor azt is látni kell, hogy egy általános feladatnál semmi biztosítékunk nincs arra, hogy a 
mintapontok által képviselt leképezést az adaline hibátlanul meg tudja tanulni. A tanuló eljárás mindössze annyit 
garantál, hogy megoldásként a kvadratikus hibafelület minrmumpontjához tartozó paramétervektort kapjuk. 
Ebből azonban még nem következik, hogy az optimumnál a négyzetes (átlagos négyzetes) hiba nulla 15 lesz. 


3. Egy processzáló elem szigmoid kimeneti 
nemlinearitással 


Az előzőekben bemutatott két elemi neuron ugrásfüggvényt alkalmazott kimeneti nemlinearitásként. Az 
ugrásfüggvény következménye, hogy a kimenet nemlineáris függvénye a súlyvektornak, vagyis ha az elemi 
neuron kimeneténél értelmezzük a négyzetes kritériumfüggvényt, akkor nem kapunk kvadratikus hibafelületet. 
Söt az ugrásfüggvény miatt a kritériumfüggvény nem 1s lesz mindenhol differenciálható. A differenciálhatóság 
és a négyzetes hibafelület hiánya a perceptronnál nem okozott gondot, hiszen ott nem gradiens alapú tanuló 
eljárást alkalmaztunk. Az adaline-nál a nem folytonos nemlinearitás hatását úgy védtük ki, hogy a hibát nem az 
igazi kimeneten, hanem a lineáris összegző kimenetén értelmeztük. A későbbiekben látni fogjuk, hogy egyik 
megoldás sem kedvező, ha ezeket az elemi neuronokat összetett neuronhálóknál szeretnénk használni, ahol a 
neuronhálók több, rétegekbe szervezett neuronokból állnak. Ilyen esetekben a perceptron tanulást azért nem 
alkalmazhatjuk, mert az csak olyan neuronok tanítására Jó, ahol a neuron kimenetén tudjuk értelmezni a hibát. A 
pillanatnyi gradiens alapú LMS algoritmus alkalmazásának pedig a rejtett réteg neuronjainak kimenetén 
található nem differenciálható nemlinearitás az akadálya. 


3.5. ábra - Szigmoid kimeneti nemlinearitással felépülő elemi neuron a hibaképzéssel és 
a paramétermódosítással 
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A probléma megoldását jelentheti, ha az ugrásfüggvényt helyettesítjük egy olyan függvénnyel, amely folytonos, 
differenciálható és az ugrásfüggvény közelítésének tekinthető. A folytonos, differenciálható nemlinearitással 
felépített elemi neuron biztosítja, hogy a kimenet a neuron szabad paramétereinek folytonos, differenciálható 
függvénye legyen, és így a paraméterek meghatározásánál — a neuron tanításánál — a gradiens eljárások 
alkalmazhatók legyenek. 


Az így, az előzőekben bemutatott elemi neuron kismértékű módosításával létrejött neuront a 3.5 ábra mutatja. A 
neuron most 1s egy súlyozott összegzőből és az azt követő nemlinearitásból áll, a nemlinearitás azonban az 
előzőekben alkalmazott szignum függvény helyett a szigmoid függvény lesz. A szigmoid függvény folytonos, 
differenciálható, monoton növekvő, korlátos, telítődő függvény. Szigmoid függvénynek sokféle konkrét 
függvény alkalmazható. A két leggyakrabban alkalmazott szigmoid függvényt — a tangens hiperbolikusz 
függvényt és a logisztikus függvényt — az 1. fejezetben, az 1.3 (c) és (d) ábrákon mutattuk be. 


A folytonos, differenciálható be-kimeneti leképezés miatt erre a neuronra már alkalmazhatók a gradiens 
eljárások, akkor 1s, ha a hibát nem a lineáris rész, hanem a teljes hálózat kimenetén értelmezzük. 


e [k)- d(r1-y(r1- dí(k1-sgm[5(4)1- d(r1- sgm.lw" (rlx( ri] , (3.24) 


Ha a négyzetes hiba pillanatnyi gradiense 


2 


de ; 
ES -2£ sgm"Í51x , 8.25) 


alapján módosítjuk a súlyokat, akkor az LMS eljárás megfelelőjére jutunk. Itt sem (5) a kimeneti nemlinearitás 
deriváltját jelölt. 


A súlymódosítás a gradiens eljárásnak megfelelően a következőre adódik: 


wikrl]-w(k) r2alkjelkjszme (s(kjja(k]- wir] r2alkjs(k]xlk] (3.26) 


A kapott összefüggés annyiban különbözik az LMS algoriítmustól, hogy itt az e kimeneti hiba helyett egy ó —e 
sgm(s) "származtatott hiba" szerepel. (Megjegyezzük, hogy ezt a tanítási szabályt szokás ezért delta szabálynak 
(delta rule) 15 nevezni.) 


A logisztikus illetve a tangens hiperbolikusz függvények nemlineáris transzfer függvényként (aktivációs 
függvényként) való alkalmazása azzal az előnnyel 1s jár, hogy a deriváltjuk könnyen számítható. Ugyanis: 


e a logisztikus függvény és a deriváltja: 
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, PF -sem(s- p[1-p) 


Pp 7- semís] HET 
te (3.27) 


e míg a tangens hiperbolikusz függvény és a deriváltja: 


-ia 


JEGTSÜNÉ TS Sza sss ERSZ TESS SS . (3.28) 


Az ugrásfüggvény nemlinearitás szigmoid függvényre való kicserélése — bármennyire 15 kismértékű 
módosításnak tűnik — fontos következményekkel jár. Ez biztosítja, hogy a tanítás gradiens eljárással lehetséges 
legyen, akkor is, ha a hibát az elemi neuron nemlineáris kimenetén értelmezzük, és ez teszi lehetővé, hogy az 
így létrejött elemei neuronból, mint építőelemből létrehozott összetett, többrétegű neuronháló szintén tanítható 
legyen gradiens alapú eljárással. A szigmoid függvény alkalmazása a neuron számítási képességét 1s 
megváltoztatja, azonban annak önmagában nincs jelentősége hogy egy neuron milyen leképezést tud 
megvalósítani. Ennél sokkal fontosabb, hogy a felhasználásával felépített többrétegű neuronhálók milyen 
képességekkel rendelkeznek. Ebben a tekintetben a legfontosabb eredményeket az 1. fejezetben mutattuk be: 
egy szigmoid nemlinearitást alkalmazó neuronokból felépített többrétegű, előrecsatolt háló univerzális 
osztályozó, illetve univerzális approximátor. Az ebben a fejezetben bemutatott elemi neuronok közül ezért a 
neuronhálók konstrukciójában a legfontosabb szerepet ez az elemi neuron Játssza. 


4. További elemi neuronok 


Az 1. fejezetben láttuk, hogy az ún. bázisfüggvényes hálózatoknál a bemeneti rétegben speciális neuronokat 
használunk, melyek nem végeznek összegzést, hanem a bemenetükre kerülő vektor valamilyen nemlineáris 
leképezését valósítják meg. Ezek a neuronok tehát egy vektor-skalár függvényt implementálnak, és általában 
nincsenek olyan szabad paramétereik, melyeket ellenőrzött tanítással határozunk meg. (Ez alól van kivétel, 
amellyel a bázisfüggvényes hálózatokat bemutató 5. fejezetben foglalkozunk.) 


Az elemi neuronok között külön meg kell említeni azokat a lineáris neuronokat, melyek felépítése megegyezik a 
perceptron lineáris részével, tehát melyek szintén lineáris súlyozott összegzést valósítanak meg, de ahol a súlyok 
kialakítása az előbbiekben bemutatott eljárástól jelentősen különbözik. Több olyan nemellenőrzött tanítású 
hálóarchitektútra 15 létezik, melyek lineáris neuronokból épülnek fel, és melyek tanítása a Hebb-szabály szerint 
történik. A Hebb-szabály neuro-biológiai megfigyeléseken alapul. Megfogalmazása Donald Hebb nevéhez 
fűződik [Hebb49]. 


Egy lineáris neuron " súlyának módosítása a Hebb-szabály szerint a következő: 


MM - Ax (3.29) 


ahol x; a neuron adott súlyhoz kapcsolódó bemenete, y a neuron kimenete és 4 egy pozitív konstans tanulási 
tényező. A Hebb-szabály azt mondja ki, hogy a súlymódosítás mértéke arányos a súly által összekapcsolt 
bemenet és a neuron kimenetének szorzatával, és azt fejezi ki, hogy ha egy bemenet szerepe a kimenet 
előállításában nagy, akkor ezt a szerepet növelni kell. A Hebb-szabály — amelynek alkalmazásával érdekes és 
fontos tulajdonságú neuronhálók konstruálhatók — azzal a következménnyel jár, hogy ismételt alkalmazásával a 
neuron súlyai minden határon túl tudnak nőni. Ezért önmagában ritkán alkalmazzák, valamilyen korlátozó hatás, 
normalizálás beépítése szükséges. A különböző normalizáló eljárásokat az egyes nemellenőrzött tanulású 
hálózatoknál, a 10. fejezetben mutatjuk be. 


Feladatok 


3.1 Mutassa meg, hogy a perceptron tanulás akkor 15 konvergens, ha nem konstans, hanem olyan £ tanulási 
tényezőt alkalmazunk, mely minden tanító lépésben biztosítja, hogy a korrekciót követően az adott mintapont 
osztályozása helyes lesz. 


3.2 A perceptron tanulás (3.3) és az LMS eljárás összefüggéseinek formai hasonlósága alapján megállapítható, 
hogy 87-28 választással a két eljárás formailag azonos. Igaz-e, hogy ezzel a választással a két eljárás 
ekvivalens? Igaz-e hogy £ konvergenciatartománya alapján megadható £ konvergenciatartománya? Adja meg, 
hogy £ -t milyen tartományon belül kell megválasztania, hogy a perceptron tanulás konvergens legyen. 
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Az elemi neuron 


3.3 A perceptron kapacitására vonatkozó összefüggés szerint a lineáris szeparálhatóságot a P/N-1l arány 
biztosítja. Ha a rendelkezésre álló tanítópontokra P/N51 igaz, hogyan transzformálhatja úgy a mintapontokat, 
hogy a lineáris szeparálhatóság feltétele teljesüljön? 


3.4 Képes-e egy kétbemenetű perceptron a logikai ekvivalencia függvényt megtanulni? 


3.5 A kétváltozós logikai függvények közül melyek megtanulására képes egy perceptron? És melyek 
megtanulására egy adaline? 


3.6 Adja meg az adaline súlyvektorának LS becslését. Mit tehet, ha a szükséges mátrix invertá-lásnál 
szingularitási problémával találkozik? 


3.7 Egy szigmoid kimeneti nemlinearitást alkalmazó elemi neuront tanítunk gradtiens alapú, legmeredekebb lejtő 
eljárással. Milyen hibafelületet kapunk? Garantáltan konvergál-e az eljárás a legkisebb négyzetes hibát jelentő 
globális minimumhoz, és ha igen, mi ennek a feltétele? 


3.8 Egy nemlineáris elemi neuron kimenetén a következő aktivációs függvényt alkalmazzuk: 


-1 ha 54 —a [2 


síirí(si ha -m/2éségrfz 
p7 sgml5]) — 
Al ha 55 af 


Határozza meg a neuron tanulási szabályát. 
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4. fejezet - A többrétegű perceptron 
(MLP) 


A többrétegű perceptron (nulti-layer perceptron, MLP) a gyakorlati feladatok megoldásánál talán a 
leggyakrabban alkalmazott hálózat-architektúra. Az MLP rétegekbe szervezett neuronokból áll, ahol annak 
biztosítására, hogy a hálózat kimenete a súlyok folytonos, differenciálható függvénye legyen, a neuronok 
differenciálható kimeneti nemlinearitással rendelkeznek. 


A fejezet bemutatja a hálózat felépítését, részletesen ismerteti a háló tanításánál szinte kizárólagosan 


tetőt ATR 


elméleti és gyakorlati kérdéseket vizsgálja. 


1. Az MLP felépítése 


A többrétegű hálózatok felépítése a 4.1] ábrán követhető. Az ábra egy két aktív réteget tartalmazó hálózatot 
mutat, amelyben az első aktív rétegben — a rejtett rétegben — három, a második aktív rétegben — jelen esetben a 
kimeneti rétegben — két processzáló elem található. A hálózat tehát egy többrétegű előrecsatolt hálózat. Az 1. 
fejezetben láttuk, hogy egy megfelelő méretű, többrétegű, szigmoid nemlinearitásokat tartalmazó hálózat — a 
súlyvektorok kialakítása után —-— tetszőleges folytonos nemlineáris függvény tetszőleges pontosságú 


alt ZZLÖt d 


ellenőrzött tanuló eljárással történik. 


A háló bemutatásához vezessük be a következő jelöléseket: egy L információ-feldolgozást végző rétegből álló 
MLP-nél az egyes rétegeket felső indexszel (/—1, 2, ..., L) különböztetjük meg. A rétegen belüli processzáló 
elemekhez (PE) az i indexet rendeljük, míg j a PE bemeneteit megkülönböztető index jelölésére szolgál — ez 


lesz egyben a megfelelő súlyvektor komponenseinek indexe is. (Pl. PED 


, seg ssársátó. fd v ; , u? i sz áj 
elemét, neuronját jelöli, w:" ennek a neuronnak a súlyvektorát, míg H ugyanezen súlyvektornak az j-edik 


komponensét jelöli.) A neuronok bemeneteire kerülő jeleket x-szel, a kimeneti jeleket y-nal jelöljük, szintén 


az [1-edik réteg i-edik processzáló 


alkalmazva a réteg- és a rétegen belüli indexeket. Így pl. MT az l-edik neuronréteg i-edik processzáló elemének 
Jj-edik bemenetére kerülő jelet jelöli. A kimeneteknél megkülönböztetjük a súlyozott összegző kimenetét 
(lineáris kimenet) a neuron nemlineáris kimenetétől. A lineáris kimenetet az eddigi jelöléseknek megfelelően s- 
sel jelöljük. Egy MLP tetszőleges számú rejtett réteget használhat, és mint ahogy a hálók képességeit tárgyaló 1. 
fejezetben láttuk, ahhoz, hogy univerzális approximátor képességgel rendelkezzen, legalább egy szigmoid 
nemlinearitással rendelkező rejtett réteget kell tartalmaznia. A kimeneti réteg lehet lineáris, de lehet nemlineáris 
is. Az MLP bemutatásánál az általánosabb tárgyalás érdekében feltételezzük, hogy nemlineáris kimeneti réteget 
használunk. 


4.1. ábra - A többrétegű perceptron felépítése a hibaszámítással 
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A többrétegű perceptron (MLP) 








(li 7 
vs] (4 " 
b Ek 0 Wa 
1 
18 VI 
igjái sem [4 
: FÚb (2 
( 9 PE 
h ; ; íg I 
Ali net v 
I j b] sem [— ; 
—— ák / 8 
pb - 4 -§ vh 4 
vi h..J ú "TIT HEEKETEL a , 1 ü Ja) 
a XA ; (PE 
ú Ag ) ii . 
; r [És 
acs ös j v" 
j 7 sem [ s 
4.44) za 
CSagE 
ki , VA (4 (1 Í e 
(1) eg v (21 1 
W — pl sem [FW 
(1) (2) (1) (2 
5 alt Y3 


A fenti felépítésnek megfelelően — összhangban az (1.6.) összefüggéssel — az MLP bemenet-kimenet leképezése 
— ha mindegyik nemlineáris rétegben azonos a nemlineáritás — a következő: 


y ef fe pw áewt xj]] (4.1) 


ahol W"9" az 1-edik réteg neuronjainak súlyvektorait összefogó mátrix, f(.) pedig az egy réteghez tartozó 
neuronok kimenetein értelmezendő szigmoid függvényeket jelöli. Egy MLP, még a legegyszerűbb esetben is, 
amikor csak egy rejtett réteget tartalmaz, paramétereiben nemlineáris leképezést valósít meg. 


Az MLP tanítása ellenőrzött tanítás, ahol a hálózat kimenetén értelmezett hiba felhasználásával határozhatjuk 
meg a kritériumfüggvény vagy kockázat paraméterfüggését. Bár az MLP-nél 15 szinte kizárólag négyzetes 
hibafüggvényt szoktak alkalmazni, a nemlineáris paraméterfüggés miatt a hibafelület nem lesz kvadratikus. 
Mindössze abban lehetünk biztosak, hogy a hibafelület a tanítandó paraméterek folytonos, differenciálható 
függvénye, ami a gradiens alapú tanuló algoritmusok alkalmazását lehetővé teszt. 


A következőkben az MLP-tanításánál leggyakrabban alkalmazott hibavisszaterjesztéses vagy back-propagation 
eljárást fogjuk bemutatni, ami szintén gradiens alapú tanító eljárás. 


2. Az MLP tanítása, a hibavisszaterjesztéses 
algoritmus 


A hibavisszaterjesztéses algoritmust a 4.1 ábrán látható MLP architektúra segítségével fogjuk származtatni. Az 
algoritmus egy pillanatnyi gradiensen alapuló iteratív tanuló eljárás, melynek származtatásánál az elemi neuron 
tanításánál alkalmazott utat fogjuk követni. Minthogy iteratív eljárásról van szó, az egyes súlyok, illetve 
súlyvektorok lépésenkénti módosító összefüggéseit írjuk fel. A már bevezetett jelöléseken túl k szolgál a 


diszkrét lépésindex jelölésére. Így wIrl az Ledik réteg, i-edik processzáló elemének a k-adik időpillanatban 


ré ez ,r [dé r e. ő tal jel .. . 
érvényes súlyvektorát, " (8) pedig értelemszerűen ugyanezen súlyvektornak a j-edik komponensét jelölt. 


A hálózat tanítását két (aktív) rétegű hálózaton mutatjuk be, de az eredmények természetes módon 
kiterjeszthetők tetszőleges rétegszámra 1s. 


Először írjuk fel a háló kimeneti négyzetes hibáját a k-adik lépésben. 


ETC) — (I-t ef) — (91 -apGOJ lya (D-d OV (4.2) 
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A súlymódosításhoz a megfelelő súlyok szerinti pillanatnyi deriváltakat 


2 
VEN . der (rk 





Ow 4.3) 
illetve a súlyvektorok szerinti pillanatnyi gradienseket 


ds (ii 
öw 9 (4.4) 





We) 


kell kiszámítani. A továbbiakban a (X£) lépésindexet csak ott fogjuk jelölni, ahol ez az érthetőség miatt 
szükséges. 


A kimeneti rétegnél (I-L-2) a pillanatnyi derivált (gradiens) megegyezik a szigmoid nemlinearitással 
rendelkező elemi neuronnál meghatározott deriválttal (gradienssel), hiszen a kimeneti réteg processzáló 
elemeinek működése semmiben sem tér el az egyetlen, szigmoid kimeneti nemlinearitással rendelkező PE 
működésétől. 

1 
zat z -2esgm ÍS) a z egéb se 

§ , (4.5) 


illetve vektoros formában írva: 





a 2 
: (4.6) 


A súlymódosítás tehát 


wo (elj ew (keze, (7) sgnv [SCI Jahre a wt (te) 2 nő ő (teja (je) (AT) 


A rejtett réteg processzáló elemeinél a fenti összefüggések közvetlenül nem alkalmazhatók, mivel nem ismerjük 
az egyes processzáló elemek kimenetén fellépő hibát. A lánc-szabály alkalmazásával azonban a deriváltakat Itt 
is meg tudjuk határozni, hiszen a rejtett réteg processzáló elemeinek súlytényezői befolyásolják ezen 
processzáló elemek lineáris (s) és nemlineáris (y) kimenetelt, továbbá ezen kimeneteken keresztül a későbbi 
rétegek kimeneteit 15. Tehát a parciális deriváltak lépésenként számíthatók. 


2, 3 
de! de a ale hez] ass det as del as! 





——]r Ú— ——— — —  —t m——t —— -6 DES sza ttl SZESZ szt tNÉES 
övét ds any! ös önét ds öm ds dni 
— e de as vi de as! 
1 al) 2 ali al) 
és, GW Es, Wa (4.8) 


Ismét a lánc-szabályt alkalmazva a hibakomponensek parciális deriváltjai meghatározhatók. 


51 -re bemutatva: 


de e as ap s 











-sem [9 telten [38] 


ös ös app ös , (4.9) 
majd az ": -re hasonlóan nyerhető deriváltat felhasználva a gradiens a következőre adódik: 
BE : ; as ; ast 
gek 7 za semsit ]msev ls mp zeesge ÍS] mise ST 
1] u 5 


--[2őjme ezőj we] Sas ja esaü kt (4 10) 


és így a súlymódosítás 
wolkaljewi (ma zalóó (en (kn őő? (e) né (ej) sem (st (eg ató (ke) 


-wi (pezsi (ja (e), (4.11) 
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ahol 


98 folott őfaény sen [AD] 141) 


az ún. "visszaterjesztett hiba". A súlymódosítás tehát itt is az LMS algoritmussal formailag megegyező 
eljárással történik, a hiba helyén azonban súlyozott, "visszaterjesztett hiba" szerepel. A súlyozó együtthatók 
megegyeznek az adott hálózat-részben az előrecsatolásnál szereplő súlytényezőkkel. A súlymódosítás ennek 
alapján tetszőleges rejtett rétegre megadható: 


mrj er) az an 350 rrejvért tn) sem [Se xtr(1e) 


- wrl (fe) 2 ő (re) are) (4.13) 


ahol a "visszaterjesztett hiba" : 


3E9(ge - [do (elet (ag) Joga (573) 
r-t (4.14) 


és "a az (1-1)-edik réteg bemeneteinek száma. 


Ha az 1/-edik réteg összes processzáló elemének súlyvektorait egy, az (1.6.) összefüggésben definiált wit 
mátrixba fogjuk össze, ahol tehát a mátrix i-edik sora az i-edik processzáló elem súlyvektora, akkor az /-edik 
réteg összes súlyvektorának módosítása tömören az alábbi formában adható meg: 


WED (feel [eger ae A [fe] 4.15) 


si NE ÍN . . KENE S: ; ; ; rlz 
Itt 8" a (4.14) összefüggéssel megadott Í " visszaterjesztett "hibákból" képezett oszlopvektor. A súlymódosítást 
is tükröző hálózatarchitektúra két aktív rétegű hálózatnál a 4.2 ábrán látható. (Az ábrán a kimeneti 
nemlinearitást jelölő sgm helyett az általánosabb ff.) jelölés szerepel.) 


Az előbbiekben bemutattuk a hibavisszaterjesztéses hálózat alapvető felépítését, működését. Az 1. fejezet 
approximációval foglalkozó részei pedig annak matematikai hátterét foglalták össze, hogy egy többrétegű, 
előrecsatolt hálózat egyáltalán milyen képességekkel rendelkezik. A hálózatok elvi alapjainak ismerete azonban 
még nem elegendő ahhoz, hogy e hálózatokat hatékonyan alkalmazni 1s tudjuk különböző gyakorlati feladatok 
megoldására. A következőkben azokkal a kérdésekkel foglalkozunk, melyek az elvi háttér birtokában most már 
azt 15 biztosítják, hogy a hálót hatékonyan tudjuk alkalmazni gyakorlati feladatok megoldására. 


4.2. ábra - Az MLP tanítása back-propagation algoritmussal 
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(1) . ked ( ; a. 
hi módosítása W o meadosítaása 


3. Az MLP konstrukciójának általános kérdései 


Az MLP gyakorlati alkalmazásnál — azon túl, hogy meg kell találnunk az adott feladat olyan megfogalmazását, 
amely alkalmassá teszi, hogy a megoldást neurális hálózat segítségével keressük — számos kérdés merül fel. 
Ezek a kérdések a konkrét hálózatok konstruálásával, ill. tanításával, stb. kapcsolatosak. Az itt tárgyalni kívánt 
kérdések valójában mind a gyakorlati alkalmazások kapcsán merülnek föl, a válaszok azonban sokszor komoly 
elméleti vizsgálat eredményeként születnek. Ugyanakkor az elmélet számos a gyakorlati alkalmazással 
összefüggő kérdésre még nem ad közvetlenül felhasználható választ. Minthogy a kérdésekre mindenképpen 
választ kell adjunk, ilyenkor a praktikus megközelítés marad. 


A megválaszolandó legfontosabb kérdések a következők: 

e mekkora (hány réteg, rétegenként hány processzáló elem) hálózatot válasszunk, 

e hogyan válasszuk meg a tanulási tényező, u értékét, 

e milyen kezdeti súlyértékeket állítsunk be, 

e hogyan válasszuk meg a tanító és a tesztelő minta készletet, 

e hogyan használjuk fel a tanító pontokat, milyen gyakorisággal módosítsuk a hálózat súlyait, 
e meddig tanítsuk a hálózatot, stb? 


Ezekre és hasonló kérdésekre, melyeket konkrét alkalmazásoknál meg kell válaszolni, minden szempontból 
kielégítő általános válaszok jelenleg még nincsenek. Nincsenek, vagy csak részben vannak olyan bizonyított 
eredmények, amelyek adott alkalmazáshoz megadnák, hogy hogyan kell megválasztani a szükséges hálózat 
méretét. De általában az előbb feltett többi kérdésre 15 csak tapasztalati válaszok adhatók. Ez az oka annak, hogy 
az MLP sikeres alkalmazásához jelenleg meglehetősen sok tapasztalat szükséges, amit csak úgy szerezhetünk 
meg, ha számos, jellegében eltérő feladat megoldására vállalkozunk. 
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A következőkben az MLP és a back-propagation tanítási eljárással kapcsolatos, az előbbiekben felsorolt néhány 
gyakorlati szempontot veszünk sorra. A neurális hálózatok alkalmazásánál felmerülő általános kérdésekkel 
részletesebben a 13. fejezetben foglalkozunk. 


3.1. A hálózat méretének megválasztása 


A hálózat méretének megválasztása a rétegek számának és az egyes rétegeken belül a neuronok számának 
meghatározását jelenti. Az elméleti eredmények szerint adott feladat megoldásához — amennyiben az 
nemlineáris függvényapproximációt igényel — legalább háromrétegű — tehát két tanítható aktív réteggel 
rendelkező — hálózatra van szükség. A rétegek számának növelése — három, esetleg még több tanítható réteg 
alkalmazása — azonban megkönnyítheti a feladat megoldását, illetve rétegenként kevesebb processzáló elem 
felhasználása 15 elegendőnek bizonyulhat. 


A háló méretének meghatározására — a rejtett neuronok számának becslésére — évek óta komoly erőfeszítések 
történnek. A nem kevés matematikai eredmény, pl. [Kúr92], [Mha94], [Ma199], [5ca98] felső becslést tud adni a 
rejtett neuronok számára. A kapott eredmények azonban túl pesszimisták. [Kúr92] például a két rejtett réteggel 
dolgozó MLP-k komplexitására ad meg korlátokat. E szerint adott hibájú approximációhoz az első rejtett 


— , . . — i ív z , , 
rétegben M- Mr] — a másodikban pedig N.-FUtD a neuronok elégséges száma, ha 22 a bemenet 


dimenziója, és !122Wtr1 . Ez az eredmény egyrészt jól illusztrálja az ún. , dimenzió átka" (curse of 
dimensionality) problémát, ami röviden azt jelenti, hogy a dimenzió növelésével a komplexitás exponenciálisan 
nő, másrészt azt mutatja, hogy pl. egy 10-dimenziós problémát már nem tudnánk megoldani a szükséges óriási 
neuron-szám miatt, ami a gyakorlatnak teljes mértékben ellentmond. Vera Kúrková eredménye ugyanakkor 
konstruktív, szemben Vitalij Maiorov és Allan Pinkus [Ma199] eredményével, amely bár jóval kisebb háló 
szükségességét mondja ki, de a konstrukció módjáról nem mond semmit. 


E felső becslések tehát a praktikusan szükséges neuronszámnál jóval nagyobb értékeket adnak, így az 
eredményeknek elsősorban elméleti jelentőségük van, a gyakorlatban még nem alkalmazhatók. Ezeknek a 
pesszimista elméleti eredményeknek — legalábbis részben — az az oka, hogy az eredmények túl általánosak, 
mivel olyan korlátokat adnak meg, melyek bármilyen feladatra érvényesek, köztük elfajult, a gyakorlatban igen 


Eg t E 


számának meghatározására jelenleg csak a tapasztalatokra támaszkodhatunk. 


A gyakorlatban a hálózat méretének meghatározásánál kétféle úton járhatunk. Egyrészt kundulhatunk egy 
nagyobb hálózatból, amiről bizonyos tapasztalat birtokában nagy valószínűséggel állíthatjuk, hogy a feladat 
megoldásához elegendő lesz, majd megkísérelhetjük a hálózatban megmutatkozó redundancia minimális értékre 
szorítását. Másrészt kisebb méretü hálózatból kundulva 15 megpróbálhatjuk a feladatot megoldani, és 
amennyiben ez nem sikerül, fokozatosan bővíthetjük a hálózatot újabb processzáló elemekkel, 11I. rétegekkel. 


A redundancia csökkentése azt jelenti, hogy megpróbáljuk megkeresni a felesleges súlyokat, processzáló 
elemeket, esetleg rétegeket, majd ezeket a hálózatból kimetszve a maradék, egyszerűsített hálózattal oldjuk meg 
a feladatot. Felesleges súlyoknak, processzáló elemeknek, esetleg rétegeknek azok a hálózatelemek tekinthetők, 
melyek kihagyásával a feladat megoldható, tehát amelyek vagy nem vesznek részt a kimenet előállításában (pl. 
egy súly értéke vagy egy processzáló elem kimenete a tanítás során végig nulla, esetleg konstans) vagy amelyek 
szerepét más hálózatelem 1s betöltheti, így a hálózat képességeinek redukciója nélkül elhagyhatók. 


Ilyen esetre példa, ha két súlyérték vagy processzáló elem kimenete együtt változik a tanítás során, vagy az 
egyik kimenet a másik konstans-szorosa. Ezekre az eshetőségekre mutat példát a 4.3. ábra, amely a tanító 
minták függvényében ábrázolja az egyes processzáló elemek kimenő jelének alakulását egy nemlineáris 
leképzést megvalósító négyrétegű (két rejtett rétegű) hálózatnál. 


4.3. ábra - A hálózat processzáló elemeinek kimenete a bemenet függvényében 
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A 4.3. (a) ábra a bemeneti réteg "processzáló elemei"-nek kimenetét mutatja. Minthogy ez a réteg csak erősítési, 
jelszétosztási feladatot tölt be, nyilvánvaló, hogy a bemeneti "processzáló elemek" egységnyi átvitelt 
valósítanak meg. A 4.3. (b), (c) és (d) ábrák rendre a második, harmadik és negyedik, egyben kimeneti réteg 
processzáló elemeinek kimenetét adják meg. Jól látható, hogy mind a második, mind a harmadik rétegben 
vannak olyan processzáló elemek, melyek a teljes működési tartományban csaknem nulla kimenetet 
produkálnak, illetve olyan processzáló elem-párok, amelyek kimenete a teljes tartományban együtt mozog, így 
ezen processzáló elemek, illetve az együttmozgó processzáló elemek egyikének jelenléte felesleges, a hálózatból 
kimetszhetők. 


A hálózatok méretének bizonyos összeköttetések kimetszésével (pruning) történő csökkentésére egyéb 
módszerek 1s alkalmazhatók. Ezek a módszerek adott súlyok kimeneti hibára gyakorolt hatása alapján végzik a 
kimetszéseket. Ha egy súly értékét nullára változatjuk — ezáltal hatását kiiktatjuk — , akkor a kimeneti hiba 
változása alapján eldönthető, hogy az adott súly lényeges-e a hálózat helyes működése szempontjából vagy nem. 
Ha a hibanövekedés túl nagy, a kérdéses súlyra (a megfelelő összeköttetésre) szükség van, ellenkező esetben az 
összeköttetés megszüntethető, kimetszhető. 


E módszerek két csoportba sorolhatók: 


e az egyik csoportba tartozó eljárások a kimeneti hiba egyes súlyok szerinti érzékenységének becslésén 
alapulnak: a hálózatból a legkisebb érzékenységű súlyok metszhetők kit, 


e a másik csoportba tartozó módszereknél a kritériumfüggvényhez egy újabb ún. büntető tagot adunk, ezáltal 
egyfajta regularizációt alkalmazunk. 


Az érzékenység-becslés alapján dolgozó eljárások a hibafelület súlyok szerinti Taylor-soros közelítéséből 
indulnak ki. Másodfokú közelítést alkalmazva szükségük van a hibafelület másodrendű deriváltjait tartalmazó 
Hesse-féle H mátrixra. Az OBD (Optimal Brain Damage) [LeC90] feltételezi, hogy a Hesse mátrix diagonális, 
amely általában nem realisztikus feltételezés, az OBS (Optimal Brain Surgeon) [Has92] e feltételezés nélkül 
dolgozik, így a hibafelületről pontosabb információt használ fel és egyrészt nagyobb mértékű méret-csökkentést 
eredményez, másrészt ezt valóban a legkevésbé fontos súlyok elhagyásával teszt. 
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A büntető tagot alkalmazó módszereknél a tanulás során a hálózat súlyainak csökkentésére törekszünk. Ennek 
megfelelően a büntető tag lehet pl. a hálózat súlyainak négyzetes összege vagy a súlyok abszolút értékének az 
összege, ami azt Jelenti, hogy a kritériumfüggvény minimalizálása során a megfelelő leképezés megtanulásán túl 
a minél kisebb súlyok elérése a cél. A megtanított hálózatnál a nullához közeli súlyok elhagyásával a hálózat 
mérete csökkenthető. A módosított kritériumfüggvény lehet pl. a következő [Ish96]: 


C(w) —- CW) 4 Hy] je 


AL 1 
Cai lag] RANNNNNNN . RNNNNST NE 

ahol ül a hálózat átlagos négyzetes hibája az összes kimenetre és az összes tanító pontra 

végezve az átlagolást, a második tag a büntető tag, amely a minél kisebb értékű súlyok elérését segíti elő, 4 

pedig a büntető tag relatív súlyát meghatározó együttható. A súlymódosítás a deriválás elvégzése után: 


ÚW, - a[- 22 ]- HA SETÜW 
? (4.17) 

vagyis a súly abszolút értéke minden tanító lépésben konstans értékkel csökken. Az ilyen tanulási eljárást felejtő 
tanulásnak (weight decay) 15 nevezik, hiszen minden egyes tanító lépésben egy súlyfelejtő tagot 15 alkalmazunk. 
A felejtő tanulás hátránya, hogy a felejtő tag minden súlynál megjelenik, azoknál 15, melyek fontosak a hálózat 
megfelelő működéséhez, így várhatóan nagyobb hibát eredményez, mint a "sima" back-propagation eljárás. E 
hatás mérsékelhető, ha a felejtés csak azon súlyokra vonatkozik, melyek abszolút értéke egy adott küszöböt (0) 
nem halad meg. A módosított felejtő tanulásnak megfelelő kritériumfüggvény: 


Cow) z Cíwiri 57 [Hy] 
re (4.18) 


A konstans mértékű felejtéssel szemben szokás exponenciális jellegű felejtést 15 alkalmazni. Ez utóbbi a súlyok 
négyzetösszegével arányos büntető tag mellett nyerhető [Pla86]: 


C éw z Céwi a a uri dó 
41 . 


A (4.16) és (4.18) összefüggések konkrét példái a regularizációs összefüggéseknek (Id. 2.1. alfejezet), ahol a 
regularizációs eljárással a négyzetes hiba csökkentése mellett egy járulékos feltétel teljesítése, a súlyok 
összegének minimalizálása 1s elérendő cél. 


A redundancia csökkentése annak ellenére hasznos lehet, hogy nagyobb méretű hálózat alkalmazása — a 
nagyobb szabadságfok következtében — sok esetben segíthet a tanítás gyorsításában. A hálózatban meglévő 
redundanciák azonban általában a szükséges számítások mennyiségét növelik, így nemcsak a hálózat 
tanításának, hanem a tanított hálózat működésének 15 csökkentik a sebességét. 


A súlyok nagyságának (a súlyvektorok hosszának) leszorítását célzó regularizációs tag alkalmazása nem csupán 
arra szolgál, hogy elősegítse a hálózat egyszerűsítését, hanem a kisebb súlyok önmagukban 1s hozzájárulhatnak 
a háló általánosító-képességének javításához. A regularizáció ilyen szerepéről a bázisfüggvényes hálózatok (6. 
fejezet) és a kernel gépek (7. fejezet) bemutatásánál részletesen 1s lesz szó. 


A hálózat bővítésére akkor lehet szükség, ha adott méretű hálózatnál a tanítás hatására már nem csökken a hiba. 
Újabb processzáló elem beiktatásával a hálózat ismét taníthatóvá válhat, vagyis a kimeneti hibát tovább 
csökkenthetjük. A folyamat az 4.4 ábrán követhető. Látható, hogy a processzáló elemek számának növelése (az 
ábrán az (a) és (b) pontok) a hálózat tovább-taníthatóságát, vagyis a hiba további csökkenését eredményezheti. 
A már kis hibájú hálózatnál ezután kísérletet tehetünk a hálózat egyszerűsítésére. A processzáló elemek 
számának csökkentése (az ábrán a (c), (d) és (e) pontok) nyilvánvalóan a hiba hirtelen megnövekedését 
eredményezi, ami azonban tovább-tanítással Ismét gyorsan lecsökkenthető, ha az egyszerűbb hálózat 15 képes a 
feladat megoldására ((c) és (d)). Ha azonban az így kapott egyszerűbb hálózat már nem alkalmas a feladat 
megfelelő megoldására (e), a hiba adott határ alá nem szorítható, a hálózat nem tanítható tovább. Jobb eredmény 
tehát ismét csak akkor nyerhető, ha újra növeljük a hálózat méretét (f ). 


Megjegyezzük, hogy az alulról felfelé építkező eljárás, az egyszerűbbtől a bonyolultabb irányában történő 
hálózat módosítás és az ellenkező irányú, bonyolulttól az egyszerűbb felé történő módosítás általában eltérő 
hálózat-felépítést és hálózat-méretet eredményez. 
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A megfelelő méretü hálózat megkeresésének más módszerei 15 vannak. Alkalmazhatjuk pl. a genetikus 
algoritmusokat ií15 a feladat szempontjából optimális hálózat-struktúra meghatározására. Ebben az esetben a 
genetikus algoritmus populációi különböző méretű hálózatokból épülnek fel, és az egyes generációk a feladat 
szempontjából egyre jobb képességekkel rendelkező hálózatokat fognak tartalmazni. Bármelyik megoldást 1s 
választjuk több, különböző méretű hálózat tanítását kell elvégezni, ami a megfelelő méretű hálózat megtalálását 
és a feladat megoldását meglehetősen lassúvá teszt. 


4.4. ábra - A hálózat taníthatóságának alakulása változó hálózat-méret mellett 
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3.2. A tanulási tényező és a súlyok kezdeti értékeinek 
megválasztása 


Már az elemi neuronnál láttuk, hogy a tanulási tényező — amit szokás bátorsági tényezőnek 1s hívni, hiszen az a 
szerepe, hogy megmondja milyen bátran mehetünk a negatív gradiens irányában — megválasztása alapvetően 
befolyásolja a tanító eljárás alakulását. Sőt, azt 15 láttuk, hogy nem megfelelően megválasztott tanulási tényező 
mellett az eljárás divergens lesz: a hiba nem csökkenni, hanem nőni fog. A bátorsági tényező megfelelő 
megválasztása tehát az MLP-nél 1s fontos. Ugyancsak fontos kérdés, hogy adott háló tanításánál milyen kezdeti 
súlyértékekből induljunk ki, hiszen ez 15 döntően befolyásolja a tanulás alakulását. 


3.2.1. A tanulási tényező, " megválasztása 


A u tanulási tényező megválasztására jelenleg nincs egyértelműen javasolható egyszerű módszer. Mint a 2. 
fejezetben láttuk, egy lineáris processzáló elem esetén meghatározható 4 azon értéktartománya, amelyen belül a 
konvergencia biztosított, sőt az optimális konvergencia-sebességet biztosító u 15 megadható. Az optimális 
konvergencia-sebességet, vagy legalább a konvergenciát biztosító u meghatározása többrétegű hálózatnál jóval 
nehezebb, hiszen itt nem biztosítható a kvadratikus hibafelület, így optimális u-ról nem 1s beszélhetünk, sokkal 
inkább olyan 4 megválasztási stratégiáról, ahol nem egy rögzített értékű tanulási tényezőt alkalmazunk, hanem a 
u értékét lépésről-lépésre változtatjuk. Az is elképzelhető, hogy processzáló elemenként, vagy legalább 
rétegenként eltérő u megválasztása indokolt. A legtöbb esetben 4 értékét tapasztalati úton határozzák meg 
általános tendenciák felhasználásával. Kis u egy minimumhely pontosabb megtalálását, de lassú konvergenciát 
eredményez, míg nagy 4 mellett a konvergencia kezdetben gyorsabb lehet, de a minimumhely megközelítése 
nehezebb, sőt bizonyos értéknél nagyobb u mellett a tanítási eljárás konvergenciája sem biztosított, a tanulás 
alatt a hálózat "elszállhat". 


A gyorsabb kezdeti konvergencia és a minimumhely megfelelő pontosságú megközelítése érhető el változó, 
lépésfüggő 4 alkalmazásával. Ebben az esetben valamely kezdeti, viszonylag nagy értékből kundulva valahány 
lépésenként csökkentjük w-t. A csökkentés menetét — mint azt a sztochasztikus szélsőérték-kereső eljárásoknál 
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(2.5.2. rész) említettük — leginkább a sztochasztikus approximáció konvergenciáját biztosító együtthatósorozat 
csökkentésének menete szerint szokás megválasztani. E szerint a következő követelményeket teljesítő u(k) 
sorozat alkalmazható: 


Dalkj-s,  Fzélkjee 


. (4.20) 


Ebben az összefüggésben k nem feltétlenül a lépésindexet jelöli, uw csökkentésére rendszerint csak néhány 


lépésenként kerül sor. Láttuk, hogy a fenti feltételeknek eleget tesz pl. a alka sorozat. A kezdeti érték (A 
) megválasztására tapasztalati összefüggés, hogy minél nagyobb a hálózat és minél több az egyes neuronok 
bemeneteinek száma, annál kisebbre kell választani. 


A tanulás konvergenciájának sebessége növelhető adaptív u választással 15. A szokásos eljárás: u változtatását 
attól tesszük függővé, hogy a súlymódosítások csökkentik-e a kritériumfüggvény (kockázat) értékét. Ha a hiba 
nem csökken, akkor 4 értéke túl nagy, csökkenteni kell. Ezzel szemben, ha több egymást követő tanító lépés 
során a hiba folyamatosan csökken, akkor lehetséges, hogy túl óvatosan választottuk meg u-t, valószínűleg 
nagyobb érték mellett 1s biztosított a hiba csökkenése, érdemes tehát nagyobb 4-vel megkísérelni a tanítást. Az 
irodalomban különböző módosítási stratégiákat találunk, amelyeknél u növelésének vagy csökkentésének 
mértéke, illetve a módosítás feltétele különböző. Kis kezdő u esetén, ha a tanító lépések során a hiba csökken, 
növeljük a tanulási tényezőt exponenciálisan, míg ha a hiba jelentősen nő, csökkentsük ugrásszerűen [ Vog88]. A 
növelés feltételeként szabható, hogy a hibafelületen egy (lokális) minimumhelyhez képest éppen hol tartunk. Ha 
a hiba a módosítások során csökken, miközben a gradiens előjele nem változik, növeljük u értékét. Ezzel 
szemben, ha a gradiens előjele az egymást követő súlymódosításoknál gyakran változik, ez azt jelenti, hogy egy 
minimumhely körül ugrál a pillanatnyi megoldásunk, tehát u értékét csökkenteni kell [Cha87]. 


Az adaptív 4 alkalmazása egzaktabb alapokon 1s lehetséges, ha figyelembe vesszük a hibafelület alakját. Láttuk, 
hogy kvadratikus hibafelületnél u optimális értéke a felület alakjától függ. Többrétegű perceptron esetében a 
hibafelületen kiterjedt lapos tartományok, továbbá ugrásszerűen változó, hirtelen meredek szakaszok is 
lehetnek, így attól függően, hogy a hibafelület mely részén mozgunk más és más 4 értékre lenne szükség. Az 
adott lépésben optimális u meghatározásához azonban az adott hibafelület-rész alakjáról kell, hogy ismeretekkel 
rendelkezzünk. Dinamikus tanulási tényező optimalizálásra ad eljárást [Yu95], amelynél a hibafelületnek a 
tanulási tényező szerinti első és második deriváltjára vonatkozó információ segítségével lehetséges gyorsabb 
konvergenciát biztosító u megválasztása. (A tanulási tényező megválasztásának kérdésére a későbbiekben a 
hibavisszaterjesztéses algoritmus változatai c. részben még visszatérünk.) 


3.2.2. A súlyok kezdeti értékeinek meghatározása 


A súlyok kezdeti értékeinek beállítására — bár természetesen ez 15 befolyásolja a tanulás konvergenciájának 
gyorsaságát — jelenleg szintén nincs matematikailag megfogalmazható összefüggés. A kezdeti súlyvektor a 
hibafelületen a kezdeti pont helyzetét határozza meg, így minél messzebb van ez a pont a megoldás helyétől, 11. 
minél bonyolultabb a kezdeti pont és a megoldás között a kritériumfelület, annál lassabban tanul a hálózat. 
Amennyiben valamilyen a priori! ismeret rendelkezésünkre áll a hibafelület alakjáról, elhelyezkedéséről, akkor 
ezt célszerű figyelembe venni a kezdeti értékek megválasztásánál, hiszen így jelentősen gyorsíthatjuk a tanulást. 
A priori ismeret hiányában a véletlenszerű súlybeállítás a leginkább megfelelő: az egyes súlyokat egy egyenletes 
eloszlású valószínűségi változó különböző értékeire választhatjuk. A véletlen kezdeti értékek a szimmetriák 
elkerülését biztosíthatják, megakadályozva, hogy különböző neuronok hasonló leképezést valósítsanak meg és 
így nemkívánt redundancia jelenjen meg a hálózatban. A véletlen tartomány nagysága befolyásolhatja a 
konvergencia sebességét, azonban általában itt 15 csak tapasztalati összefüggés állítható fel: minél nagyobb a 
hálózat, annál kisebb véletlen értékek választása célszerű. A háló méretétől nem független, viszonylag kis 
értékek megóvhatnak attól, hogy az egyes neuronok a tanítás túl korai szakaszában az aktivációs függvény 
telítéses szakaszára kerüljenek. 


A hálósúlyok kezdeti értékének megállapításánál azt 15 figyelembe kell venni, hogy az egyes neuronok 
kimenetein telítődő nemlineáris függvényt, szigmoid függvényt alkalmazunk. Mind a szigmoid nemlinearitással 
dolgozó elemi neuron tanításánál, mind az MLP tanításánál láttuk, hogy a súlymódosítás összefüggésében a 
nemlinearitás deriváltja, sgm(.) 15 szerepel, amely, ha a telítéses szakaszon vagyunk, nagyon kicsi is lehet. 
Törekedni kell tehát arra, hogy a kezdeti értékek beállításánál minél több neuron az , aktív" tartományában 
működjön, vagyis a neuronok lineáris kimenetei a szigmoid függvények meredek szakaszára essenek. Mint 
láttuk, ebben a kis kezdeti súlyok segíthetnek. Derrick Nguyen és Bernard Widrow azonban hatékonyabb 
módszert javasoltak [Ngu90]. 
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A Nguyen-Widrow eljárás olyan módon próbálja a kezdeti súlyokat beállítani, hogy a rejtett réteg neuronjainak 
aktív tartományai a bemeneti térben lehetőleg egyenletesen legyenek szétosztva, vagyis az egyes neuronok a 
bemeneti tér más-más tartományában legyenek aktívak és lehetőleg ne legyen olyan bemeneti tartomány, ahol 
egyetlen neuron sem aktív. Ennek érdekében egyrészt a súlyok célszerű , hosszára" adnak egy összefüggést, 
másrészt az egyes neuronok eltolásértékének (wo) megfelelő megválasztásával biztosítják az aktív tartományok 
kellő szétosztását a bemeneti térben. Az eljárás gyakorlati alkalmazása azt mutatja, hogy a Nguyen-Widrow 
kezdeti-érték beállítással a konvergencia jelentősen, akár nagyságrendekkel 1s gyorsítható. 


3.3. A tanító pontok felhasználása, a háló minősítése 


A hálók tanításánál a tanítópontokat általában többször, ismételten felhasználjuk, és a tanítást addig folytatjuk, 
amíg az eljárás vagy magától le nem áll, vagy megfelelően kis hibát el nem érünk. Bár elvileg a gradiens 
eljárások egy minimumpont elérésekor önmaguktól leállnak, a pillanatnyi gradiens alapú eljárásoknál semmi 
sem garantálja, hogy nulla gradiens egyáltalán elő fog fordulni. Így legtöbbször a tanulás leállításáról külön 
gondoskodni kell. Általában előre nem határozható meg a hálózat hibájának alakulása a tanító lépések 
függvényében, így azt sem lehet megmondani, hogy megfelelően kis hiba eléréséhez hány tanító lépés 
szükséges. A hálózat "Jóságának" kiértékelése, minősítése amúgy 1s számos elméleti és gyakorlati problémát vet 
fel. Nem csupán a tanító lépések, hanem a tanító pontok számának meghatározása 15 kérdéses. (A tanító pontok 
számának kérdésére ennek a résznek a végén még röviden kitérünk.) 


3.3.1. A tanító pontok felhasználása 


További lehetőségeket jelent, hogy a súlymódosításokat pontonként, vagy kötegelt (batch) eljárás szerint, csak a 
teljes tanító készlet (epoch) felhasználása után végezzük. Ezek az eljárások a súlykorrekció gyakoriságában 
térnek el. Az első esetben minden tanító pont alkalmazásánál meghatározzuk a kimeneti hibát és az ebből 
számítható korrekciós értékkel lépésenként el 15 végezzük a súlymódosítást. A batch eljárásnál a teljes tanító 
készlet összes mintáját egyenként, egymás után ráadva a hálózatra minden esetben kiszámítjuk a hibát, de az 
egyes tanító pontokhoz tartozó hibával nem végzünk korrekciót, hanem az egyedi korrekciókat összegezzük és 
az akkumulált módosítást végezzük csak el. 


Az első esetben tehát a súlymódosítások száma megegyezik a tanító pontok számának és a tanítási ciklusok 
számának szorzatával, míg a batch eljárásnál csak ciklusonként korrigálunk, ahol egy ciklus a teljes tanító 
készlet egyszeri felhasználását jelenti. Természetesen a batch eljárásnál nem feltétlenül kell a teljes tanító 
készletet felhasználni mielőtt egy súlymódosításra sor kerülne. Így valójában a pontonkénti súlymódosítás és a 
teljes tanító készletenkénti súlymódosítás között bármely eset alkalmazható, amikor a súlymódosítást a 
pontonkénti esetnél ritkábban, de az epochonkénti esetnél gyakrabban végezzük el. 


A két szélső eset nemcsak a korrekciók számában tér el, hanem jellegében 15. A mintánkénti tanítás — a 
pillanatnyi gradiensen keresztül — mintegy zajt visz a rendszerbe, hiszen a pillanatnyi hibaértékek által 
meghatározott hibafelületen mozgunk, a batch eljárás ezzel szemben átlagoló jellegű. Megjegyezzük, hogy a 
mintánkénti tanítás nagyon kis 4-vel a batch eljárással ekvivalens megoldásra vezet, ami nem meglepő, hiszen 
ilyenkor lépésenként olyan kismértékű módosítást hajtunk végre, hogy az átlagoló jelleg megmarad. A 
mintánkénti tanításból adódó "zaj" sztochasztikus elemet visz a tanításba, ezáltal segíthet a lokális 
minimumokba való beragadás elkerülésében. Sok esetben tudatosan alkalmazunk zajt a hálózatban — a 
súlyokhoz vagy a bemeneti mintákhoz véletlenszerű értékeket adunk — így kíséreljük meg a hálózatot egy 
lokális minimumból kiugratni (ld. még sztochasztikus szélsőérték kereső eljárások, 2.5.2. rész). 


3.3.2. A háló minősítése 


További kérdés, hogy egyáltalán hogyan minősítsünk egy hálózatot. Minősítésre több okból 1s szükségünk van. 
Egyrészt ennek alapján dönthetjük el, hogy a háló kellően megtanulta-e a feladatot, leállhatunk-e már a 
tanulással, másrészt ez biztosítja, hogy tudunk arra vonatkozóan mondani valamit, hogy mennyire sikerült a 
feladatot egyáltalán megtanítant. 


A tanulással foglalkozó 2. fejezetben láttuk, hogy a minősítés elvben a kockázat meghatározásával lenne 
lehetséges. Mivel azonban ehhez a mintapontok eloszlását ismerni kellene, ez az út nem járható. Azt 1s láttuk, 
hogy a valódi kockázat — megfelelő feltételek fennállta esetén — a tapasztalati kockázat alapján 15 becsülhető 
(ERM elv). A feltételeket a statisztikus tanuláselmélet keretében fogalmazták meg, amely elmélet a valódi 
kockázatra felső korlátokat 15 származtatott. 
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Az MLP minősítésénél az ERM elv és a felső korlátok nem alkalmazhatók. A felső korlátok alkalmazása a háló 
által megvalósítható függvényosztály VC-dimenziójának ismeretét és azt kívánja, hogy a VC-dimenzió véges 
legyen. MLP esetén a VC-dimenzió általában nem határozható meg, ugyanakkor az megmutatható, hogy a VC- 
dimenzió akár végtelen is lehet. Végtelen VC-dimenzió mellett a felső korlátokat megadó (2.31) és (2.33) 
összefüggések értelmezhetetlenek. A többrétegű perceptronok , jóságának" meghatározására azonban a felső 
korlátok még akkor sem lennének alkalmazhatók, ha a VC-dimenzió véges lenne, ugyanis a felső korlátok 
általában túl pesszimisták, konkrét gyakorlati feladat megoldásánál a hálók minősítésére nem használhatók. 


A tanítás leállítása érdekében történő minősítés a következőképpen történhet. Adott tanító készlet mellett 
szükségünk van egy ún. kiértékelő mintakészletre (validation set) 15. A hálózat tanítására csak a tanítókészlet 
mintáit használjuk, míg az adott számú tanító lépésen átesett hálózat minősítése a kiértékelő készletre adott 
válaszok alapján lehetséges. A kiértékelő készlet olyan be- és kimeneti mintapárokat tartalmaz, amelyek a 
megoldandó feladatból származnak, és a hálózat normál működési tartományába esnek, de amelyeket a tanításra 
nem használtunk fel. Az MLP hálózatok általánosító, interpolációs képessége következtében azonban azt várjuk, 
hogy a megtanított hálózat ezekre, a még sohasem látott mintákra 1s Jó válaszokat szolgáltasson. Amennyiben 
csak a tanítópontokra adott válaszok alapján értékelünk, túltaníthatjuk a hálózatot. A kiértékelő készlet szerepe 
éppen az, hogy a túltanítást megakadályozzuk. A tanító eljárás során, bizonyos számú tanító lépést követően a 
validációs készletre adott válasz hibája alapján dönthetjük el, hogy a háló már kellő mértékben megtanulta-e a 
feladatot. A minősítő készlet mintáit tehát szintén a tanítás során, de nem a háló tanítására használjuk fel. 
Szokás ezért a validációs készletet 1s a tanító készlet részének tekintent. 


Túltanítás (overtraining) akkor lép fel, ha a tanító készlet mintáira már nagyon kis hibájú válaszokat kapunk, 
miközben a kiértékelő készletre egyre nagyobb hibával válaszol a hálózat. Ez azért következhet be, mert a 
hálózat válaszai túlzottan illeszkednek a véges számú tanító pont által megszabott leképezéshez — a tanító 
pontokban akár tetszőlegesen kis hiba 15 biztosítható —, miközben a közbenső pontokra adott válaszok jelentősen 
eltérhetnek a megfelelő kívánt válaszoktól. A túltanulás esetét mutatja a 4.5 ábra tanulási görbéje. 


4.5. ábra - Tanulási görbe: a korai leállítás szerepe a túltanulás elkerülésében 
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Az ábra alapján látható, hogy a tanítást a megjelölt helyen — vagyis amikor a tanító mintákra adott válasz hibája 
ugyan még csökken, de a kiértékelő (validációs) mintákra már növekedni kezd — leállítva, a hálózat működése 
jobban közelít a kívánt leképzéshez. Ezt a leállítási stratégiát korai leállításnak nevezzük. A túltanulás 
következtében beálló tanítópontokhoz való túlzott illeszkedés (overfitting) hatását a leképezésre a 4.6. ábra 
illusztrálja. 


4.6. ábra - A hálózat leképezésének túlzott illeszkedése a tanító pontokhoz 
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A tanító pontokhoz való túlzott illeszkedés a hálózat általánosító-képességét rontja. Túltanulás elsősorban akkor 
következhet be, ha a hálózat mérete — a hálózat szabadságfoka — a tanító pontok számához viszonyítva túl nagy. 
A helyzet hasonló ahhoz az esethez, amikor polinomiális regressziónál kevés mintapontra akarunk 
nagyfokszámú polinomcot illeszteni. A fokszám csökkentésével — esetleg a mintapontokbeli tökéletes illeszkedés 
rovására — a pontsorozat általános trendjének követése inkább lehetséges. A 4.7 ábra arra ad példát, hogy egy 
túltanulás esélyét. Az ábrán a szinusz függvény egy periódusát közelítjük polinomiális approximációt és MLP-t 
alkalmazva. A 4.7 (c) és (e) ábrák különböző komplexitású MLP-k eredményeit: az első egy rejtett neuront, a 
második ötöt, a harmadik húszat használ. A (b), (d) és (f) ábrák hasonlóan egyre nagyobb komplexitású 
polinomiális közelítés eredményei, rendre másod- ötöd- és huszadfokú polinommal történt approximációk. 
Látható, hogy miközben az MLP-nél a szabad paraméterek számának sokszorosára növelése alig rontott az 
approximáció minőségén, a polinomiális approximációnál ez a hatás igen jelentős. A polinomiális approximáció 
sokkal érzékenyebb a paraméterek számának megfelelő megválasztására. A túl nagy fokszám jelentős 
túlilleszkedést eredményezett. Az ábra ugyanakkor azt 15 mutatja, hogy túl kevés szabad paraméter mellett 
mindkét eszköz esetében nagy lesz a hiba, ami természetes i1s, hiszen ilyenkor az approximáló rendszer 
képessége nem elegendő a feladat megoldására. 


Miközben általánosan igaz, hogy a túl sok szabad paraméter túltanulásra és túlilleszkedésre vezet, az MLP 
hálózatoknál viszonylag tág határok között megválaszthatjuk a háló méretét anélkül, hogy jelentős mértékben 
túltanulást tapasztalnánk. Ez, a mindenképpen előnyös tulajdonság egyfajta implicit regularizációként 
értelmezhető, hiszen anélkül, hogy bármilyen siíimasági mellékfeltételt alkalmaztunk volna, a háló a 
tanítópontokra illeszthető végtelen sok lehetőség közül a simább válaszokat előnyben részesíti. Ez a tulajdonság 
a polinomiális approximációra már nem mondható el. 


4.7. ábra - A szabad paraméterek számának hatása a túltanulás hajlamra MLP: (a), (c), 
(e) polinomiális approximáció (b), (d), (f) 
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A tanító és a kiértékelő mintakészleteken kívül szokás még egy ún. minősítő (test) készletet 15 definiálni, amely 
szintén az adott problémából származó összetartozó be- kimeneti mintapárok halmaza, és amely mintapárokat a 
tanításnál egyáltalán nem használunk fel. A minősítő készlet a megtanított háló végső értékelésére, a háló 
általánosító-képességének becslésére használható. A rendelkezésre álló mintapontokat egy problémánál ezért 
három részre, tanító-, kiértékelő- és tesztelő készletre kell bontanunk. Kellően nagyszámú adat mellet ez nem 
okoz nehézséget. Ha azonban kevés adat áll rendelkezésünkre (ez számos gyakorlati feladatnál előfordulhat 
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vagy az adatok beszerzésének nagy költsége, vagy az adatoknak a probléma természetéből adódó kis száma 
miatt), a három diszjunkt készletre bontás azt eredményezheti, hogy az egyes részfeladatok elvégzéséhez túl 
kevés mintapontunk marad. Így, ha viszonylag sok pontot használunk fel a tanításra, és kevés marad a 
megtanított hálózat minősítésére, nem lehetünk biztosak a megtanított hálózat képességeit illetően. 


Ezzel szemben, ha a minősítésre hagyunk több mintapontot és ezért kevés tanító pontunk lesz, csak azt 
konstatálhatjuk — bár ezt kellő biztonsággal tehetjük —, hogy a hálónk meglehetősen gyengén tanulta meg a 
feladatot. Nem közömbös tehát, hogy a mintakészlet mekkora hányadát használjuk tanításra és mekkorát 
minősítésre. 


A megfelelő arányok meghatározására számos elméleti és gyakorlati eredmény született. A mintahalmaznak a 
korai leállításhoz szükséges két részre bontásával foglalkozik pl. [Guy96] és [Kea96]. Ezek az eredmények a 
VC-dimenzió alapján meghatározható korlátok felhasználásával adnak javaslatot a mintapontok tanító és 
kiértékelő halmazokra bontásához. Az ezzel kapcsolatos nehézségeket az előbbiekben említettük, itt azonban a 
helyzet kedvezőbb, hiszen nem a tényleges kockázatnak a gyakorlati alkalmazás szempontjából 1s használható 
becslése a cél, hanem csupán a mintakészlet megfelelő bontása. A különböző megközelítések alapján született 
eredményeket Itt nincs módunk ismertetni, csupán egy megközelítés gyakorlatban jól alkalmazható eredményeit 
foglaljuk össze röviden. 


Amar! és munkatársai a tanítópontok két részre történő bontását vizsgálták azzal a céllal, hogy a túltanulás korai 
leállítással történő elkerüléséhez a megfelelő tanító/kiértékelő arányt meghatározzák [Ama97]. A megfelelő 
arány függ a háló komplexitásától, a háló szabad paramétereinek számától 15. Ha a tanító pontok száma P kisebb 
vagy közel egyenlő a háló szabad paramétereimek számával (rn), akkor nagy a túltanulás veszélye, hiszen 
ilyenkor a háló elvileg 15 képes az összes tanítópontot megtanulni, memorizálni. Ha ugyanekkor még kevés 
pontunk van — ahogy ezt az előbb már említettük — akkor a pontkészlet két készletre történő hasítása nem oldja 
meg a problémát: túl kevés mintapont marad a háló tanítására. Ekkor a túltanulás elkerülésére a 2. fejezetben 
említett regularizációs technikát alkalmazhatjuk. Megmutatható ugyanis, hogy a korai leállítás és a megfelelő 
mellékfeltétellel végzett regularizáció hasonló eredményre vezet [B1s595]. 


Ha a súlyok számához képest nagyon sok mintapontunk van (P 5 30m), akkor megmutatható, hogy korai 
leállításra nincs szükség, helyesebb, ha a rendelkezésre álló pontokat mind tanításra használjuk. A két szélsőség 
között (P ca 30m, de P 5 m) Játszik fontos szerepet a korai leállítási technika. Ehhez viszont valóban szükséges a 
mintapontok tanító és értékelő készletre való bontása. Amari eredményei azt mutatják, hogy — feltéve, hogy m 


elegendően nagy — a legjobb stratégia, ha mindössze F/ afa pontot használunk kiértékelésre, a többit pedig 
tanításra. Ha pl. a szabad paraméterek száma m-100, akkor a pontok 79o-át kell kiértékelésre használnunk és a 
maradék 93996-ot tanításra. 


Kevés pont esetén az előbbi indokok miatt a végső minősítés céljait szolgáló teszt készlet sem különíthető el a 
mintakészletből. Ilyenkor a már említett (Id. 2. fejezet) kereszt kiértékelési (cross validation) eljárást 
alkalmazhatjuk (pl. [S5t078]). 


A háló mérete, a felhasznált tanító pontok száma és a háló hibája a teszt készleten, vagyis a háló általánosító - 
képessége nem függetlenek egymástól. Az eddigiekben vizsgált kérdések tehát valójában csak egymással 
összefüggésben tárgyalhatók. Az alábbiakban e kérdéshez kapcsolódó két általános alaperedményt említünk 
meg, melyek a hálók osztályozó, illetve függvényapproximációs képességeikre vonatkoznak. 


Az első általános eredmény, amely Eric Baum és David Haussler nevéhez fűződik [Bau89], osztályozós hálókra 
vonatkozik. Arra ad választ, hogy mekkora tanító készlet szükséges adott méretű hálózat megtanításához, ha a 
megtanított háló általánosító-képességéről valamilyen állítást 15 szeretnénk megfogalmazni. 


l 
0-2 F£— 
Legyen egy M processzáló elemből álló, m súllyal rendelkező hálónk. Legyen 08, Bizonyítható, hogy ha 


pz od Fesz 
Ír Írj 


[ri 
-) 
) tetszőleges eloszlású mintát tanítunk a hálónak, és a tanító minták legalább l 27 ed részét a 


megtanított háló helyesen osztályozza, akkor ugyanebből a feladatból származó, de a tanításnál fel nem használt 


tesztelő minták legalább 1-2) od részét is 1 valószínűséggel helyesen fogja osztályozni a háló. 


Ha eltekintünk a logaritmikus tényezőtől, akkor a szükséges tanítópontok száma, a súlyok (szabad paraméterek) 
hm 


száma és az osztályozási hibára jellemző konstans e között az alábbi közelítő kapcsolat áll fenn: — " , ami 
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megegyezik a Widrow által megfogalmazott ökölszabállyal. Ez azt jelenti, hogy pl. 10 96-os általánosító hiba 
eléréséhez a tanító pontok számát legalább a háló szabad paraméterei számának tízszeresére kell választani. 


Függvényapproximációs feladatokra Barron jutott az előzőhöz hasonló jellegű eredményre [Bar93]. Az 
eredmény többrétegű perceptron approximációs tulajdonsága, az approximálandó függvény jellemzői és a háló 
mérete között ad kapcsolatot. Mint az előzőekben láttuk az MLP hálózatok egyetlen szigmoid nemlinearitású 
rejtett réteggel és lineáris kimeneti réteggel univerzális approximátorok, amennyiben a rejtett rétegben elegendő 
neuron található. Egy konkrét háló és approximálandó függvény esetében a háló approximációs képessége, 


általánosítása azzal az eltéréssel jellemezhető, mely az approximálandó fix) és a háló által megvalósított 


approximáló f(x) függvény között van. Négyzetes értelemben véve az eltérést (négyzetes veszteségfüggvényt 
alkalmazva) az approximáció kockázatának (Id. 3. fejezet) egy felső korlátja határozható meg. Barron 
eredménye szerint: 


ld 
Ré olsz olv 


) (4.21) 


ahol "7 az approximálandó függvény regularitására, "változékonyságára" jellemző mennyiség, M a háló rejtett 
rétegbeli neuronjainak száma, N a bemenet dimenziója és P a tanító pontok száma. Az összefüggés mutatja a 
háló méretének az általánosításra, az approximáció jóságára vonatkozó ellentmondásos hatását. Az előző 
megfontolásoknál már utaltunk rá, hogy ha a rejtett rétegbeli neuronszám túl kicsi, a háló nem képes a megfelelő 
változékonyságú függvény kellően kis hibájú közelítésére. Ugyanakkor a tanítópontok számához viszonyított túl 
nagy háló túlilleszkedésre hajlamos, így az általánosítási hiba ezért lehet nagy. A korlát két tagja ezt a két 
ellentétes hatást fejezi kt. 


3.4. A hibavisszaterjesztéses algoritmus változatai 


A hibavisszaterjesztéses algoritmusnak számos változatát dolgozták ki. A változatok célja egyrészt a 
konvergencia gyorsítása (pl. momentum módszer), másrészt a hibafelületen jelentkező lokális minimumokba 
való beragadás elkerülése. A back-propagation eljárás a hibafelület gradiense alapján számol, tehát a tanítás 
alapjául lényegében bármely gradiens alapú eljárás szóba jöhet. Így alkalmazzák MLP hálózatok tanítására a 
konjugált gradiens módszert, a Levenberg-Marguart eljárást, de a rekurzív legkisebb négyzetes hibájú 
(recursive least sguares, RLS) [Leu0l] és a Kalman szűrő alapú eljárás [S5ha92], [11992], [5um99] 15 szokásos. A 
különböző módszerek eltérő lépésszám alatt érik el a megfelelő kis hibájú megoldást, azonban az egyes 
lépésekhez szükséges számítások mennyisége is jelentősen eltérhet, így a kisebb lépésszámú eljárások 
összességében nem feltétlenül eredményeznek kedvezőbb tanulást. 


A gradiens alapú eljárásoktól alapvetően eltérnek a véletlen keresési módszerek (véletlen keresés, genetikus 
algoritmusok), melyeket szintén alkalmazhatunk a megfelelő súlyok megtalálására. Ezen módszerek előnye, 
hogy globális keresést végeznek, nem igénylik a gradiens meghatározását, így akkor 15 alkalmazhatók, ha a 
hibafüggvény nem differenciálható. Mindezek következtében lokális minrmumokba való beragadásuk kevésbé 
valószínű. A "feltételgyengítések" és a lokális minrmumokba való beragadási esély csökkentésének ára — 
különösen nagyméretű hálózatoknál — a jelentős számítási igény. A véletlen keresés (random search) 
bizonyítottan megtalálja a globális minimumot (ld. 2. fejezet), ha a bemeneti súlytér kompakt. E feltétel az MLP 
súlyaira nem biztosítható, ezért nem garantált, hogy a véletlen kereséssel eljutunk a globális minimumhoz. 


Genetikus algoritmus esetén a hálózat súlyaiból kell kialakítanunk a kromoszómákat, a jóságfüggvény szerepét 
pedig pl. a hibafüggvény (-1)-szerese töltheti be. A kromoszómák kialakításának egy lehetséges módja, hogy a 
súlyértékek bináris reprezentációiból képezünk bitfüzéreket, minden egyes bitfüzér egy adott struktúrájú és adott 
súlyokkal rendelkező hálónak felel meg. Természetesen más reprezentáció 15 lehetséges. A genetikus 
algoritmusok egyik erőssége, hogy nem igényli a gradiens meghatározását hátrány is lehet, amennyiben a 
gradiens információ rendelkezésünkre áll. Ha tehát a gradiens ismert, célszerű felhasználni, hiszen ez járulékos 
információ a hibafelületről, így felhasználása a genetikus keresést gyorsíthatja. Az eltérő eljárások kombinálása 
általában 15 hasznos lehet. Pl. valamely véletlen keresési eljárással próbálunk először a minimumhely közelébe 
eljutni, ahonnan már egy gradiens alapú algoritmussal a minimum pontos helye megtalálható. 


Az említett tanulási eljárásokkal részletesen a 2. fejezetben foglalkoztunk, így itt csak az ún. momentum 
módszert foglaljuk össze. 


3.4.1. Momentum módszer 
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A momentum módszer olyan heurisztikus eljárás, ahol az egyes lépésekben a súlymódosítás meghatározása két 
részből áll. Először a gradiens módszernek megfelelően meghatározunk egy súlymódosító értéket, azonban nem 
ezzel végezzük el a korrekciót, hanem még figyelembe vesszük az előző módosítás hatását 15. A súlymódosítás 
ennek megfelelően: 


wit] - amim 4 gáwia (422) 


ahol y az ún. momentum együttható, amelynek értéke 0 és 1] között kell legyen (gyakori választás a 0,8 körüli 
érték). Az új tag tehetetlenséget visz az eljárásba, hiszen az adott lépésben a módosítás irányában szerepet kap 
az előző irány, s így közvetve a régebbi irányok 15. A momentum módszer különösen kedvező, ha a 
hibafelületen keskeny völgy húzódik végig, és a momentum tag nélkül a megoldás felé ezen völgy 
környezetében túl sok iteráció megtételével haladnánk. A momentum módszer (4.22) összefüggéséből látható, 
hogy ez formailag megegyezik a konjugált gradiens módszerrel (ld. 2.5.1. alfejezet), ahol szintén a pillanatnyi 
gradiens és az előző irány eredője irányában történik az elmozdulás. Azonban míg a konjugált gradiens módszer 
olyan szélsőérték-kereső eljárás, amely kvadratikus hibafelület esetén bizonyítottan N lépésben konvergál (W- 
dimenziós hibafelület esetén) és ahol az egyes tagok együtthatói meghatározhatók (ld. (2.78) és (2.86) 
összefüggések), addig a momentum módszer heurisztikus eljárás, ahol mind u mind Jn megválasztása 
tapasztalati úton történik. 


Az előzőekben utaltunk már a u megválasztásánál felmerülő nehézségekre. Mivel mind u, mind n megválasztása 
a hibafelület függvénye, felmerül a két tényező együttes optimalizálásának igénye 15. E megközelítés alapján 
javasol paraméter megválasztást [Yu97]. Az eljárás alapgondolata, hogy olyan — optimális — 4 és 7 
lépésnagyságokat határozunk meg, melyek biztosítják, hogy a következő tanító lépés során kapott súlyok a 
lehető legnagyobb mértékben csökkentik a hibát. Ehhez a hibafelület u és y szerinti első és második deriváltjait 
kell meghatározni, azonban mivel a deriváltak számításánál az eredeti hibavisszaterjesztéses eljárás 
részeredményei felhasználhatók, a járulékos számítások mennyisége nem jelentős. A módszer alkalmazásával — 
a számítási igényeknek a klasszikus back-propagation eljáráshoz viszonyított 2-3-szoros megnövelése árán — 
nagyságrendi sebességjavulás érhető el. Eredőben tehát adott hibahatár elérése kevesebb számítással, 
gyorsabban lehetséges. 


A többrétegű, hibavisszaterjesztésen alapuló tanítással dolgozó hálózatok számos alkalmazási lehetőséggel 
rendelkeznek. Gyakori alkalmazásukat kedvező tulajdonságaik, bizonyított approximációs képességük és 
viszonylag egyszerű felépítésük indokolják. Az alkalmazási területekkel és néhány érdekes alkalmazási példával 
a 7. fejezetben találkozhatunk. 


Feladatok 


4.1 Oldja meg a XOR problémát egy rejtett rétegű MLP hálózattal. Törekedjen a lehető legegyszerűbb hálózat 
elérésére. Rajzolja fel a feladat hibafelületét. 


4.2 Mutassa meg, hogy a XOR probléma megoldható egy két neuronból (egy rejtett és egy kimeneti neuron) álló 
hálózattal. Határozza meg a háló súlyait. Rajzolja fel a háló által megvalósított elválasztó felületet. 


4.3 Vizsgálja meg a kezdeti súlyértékek megválasztásának hatását a tanító eljárás konvergencia-sebességére. 
Válasszon nagyságrendileg eltérő kezdeti súlyértékekeket. A vizsgálatot különböző feladatoknál (egydimenziós 


bemenet, pl. " -sinlr) — kétdimenziós bemenet, pl. XOR, és egy sokdimenziós osztályozási probléma, pl. 
karakterfelismerés 10x14 pixeles bináris képek alapján) végezze el. 


4.4 Konstruáljon egy, az "" sin la) függvényt approximáló MLP-t. Törekedjen a minél egyszerűbb hálózatra. 
Milyen aktivációs függvényt célszerű választania a kimeneti réteg neuronjánál: logisztikus, tangens hiperbolikus 
vagy lineáris függvényt? 


4.5 Konstruáljon MLP-t, amely megoldja a két egymásba tekeredő spirál szétválasztását. Vizsgálja meg, hogy 
hogyan befolyásolja a tanítás gyorsaságát és a háló méretét, ha egy, illetve ha két rejtett réteget alkalmaz. 


4.6 Oldja meg a paritásproblémát (N-bites bemeneti minták páros és páratlan paritású csoportokra való 
szétválasztása) MLP hálózattal. Adjon magyarázatot, hogy miért "nehéz" ez az egyszerű feladat egy MLP-nek. 


4.7 Vizsgálja meg a momentum módszer hatását a konvergencia-sebességre. Oldja meg a 4.5 feladatot, de most 
alkalmazzon momentum tagot 15 a tanításnál. Kísérletileg elemezze, hogy milyen irányban és mértékben 
befolyásolja a tanulási tényező és a momentum faktor a tanulás sebességét. 
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4.8 Konstruáljon egy, az "7" Kara) függvényt approximáló MLP-t. Vizsgálja meg, hogy a háló méretének 
nagyfokú változtatása milyen hatással van az eredményre. Próbálkozzon néhány (5-6) és néhányszor tíz (30-50) 
rejtett neuronnal. 


4.9 Alkalmazzon az előző feladatra egy súlyminimalizáló regularizációs tanító eljárást a néhányszor tíz 
neuronnal felépített esetre. Próbálja a háló méretét ennek segítségével redukálni. 
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hálózatok 


Az előzőekben bemutatott MLP hálózatok számos előnyös tulajdonságuk és széleskörű alkalmazásuk ellenére 
hátrányokkal 15 rendelkeznek. A hátrányok között első helyen kell megemlíteni, hogy az MLP hálózatok 
paramétereikben nemlineáris leképezést valósítanak meg. Ennek következménye, hogy az MLP hálózatok 
kritériumfelülete még a szokásosan alkalmazott négyzetes hibafüggvény mellett sem kvadratikus, a hibafelület 
lokális  minimumokkal rendelkezhet. A lokális  minimumok lehetősége miatt a  gradiens alapú 
hibavisszaterjesztéses tanító eljárás (és bármely más gradiens alapú eljárás) nem garantálja, hogy a globális 
optimumot elérjük. További hátrányuk a tanító eljárás viszonylagos lassúsága, ami különösen nagyméretű 
hálózatoknál és elsősorban olyan alkalmazásoknál jelent komoly nehézséget, ahol nem csupán off-line tanulásra 
lehet szükség, hanem ahol a hálózat működését folyamatosan a változó környezethez kell igazítani. A lassú 
tanulás fő oka a több tanítható réteg és az ebből következő hibavisszaterjesztés szükségessége. A tanítás 
gyorsítható, ha a tanítható rétegek számát csökkenteni tudjuk. 


Az 1. fejezetben összefoglaltuk azokat az elméleti eredményeket, amelyek megmutatták, hogy minimum két 
aktív rétegre szükség van ahhoz, hogy a hálózat megfelelő függvény-approximációs képességekkel 
rendelkezzen. A következőkben olyan hálózatokkal fogunk foglalkozni, amelyekben szintén két aktív réteg 
található, az egyik aktív réteg szerepe azonban jelentősen különbözik az eddig tárgyalt MLP hálózatoknál 
betöltött szereptől. A szokásos tanító eljárással csak a hálózat kimeneti rétegét tanítjuk, lehetővé téve így a 
gyorsabb tanulást. Ennek ellenére e hálózatok lényegében hasonló képességeket mutatnak, mint a többrétegű 
perceptron (MLP) hálózatok. 


5.1. ábra - A bázisfüggvényes hálózatok általános felépítése 


ti — 


P(x(k)) 


s, hP(x(K)) 
bázisfüggvényv- I Cr) 


eképezést 






megvalósító , 


x(X) [réteg ís 
——e 7 . lineáris 


kimeneti réteg 


— 


a) 


(PAX k)) 





A családba tartozó hálózatok alapvető felépítése — bár a hálózatok eltérő eredetűek, és egymástól függetlenül 
jöttek létre — hasonló. A hálózatok két rétegből állnak (5.1 ábra): egy nemlineáris leképzést megvalósító 
rétegből (amely a család egyes tagjainál rögzített, más esetben ez 15 tanítható, azonban a tanítás itt egyes 
hálóknál felügyelet nélküli, más hálóknál felügyelt eljárással történik) és egy felügyelt tanítással tanítható 
lineáris rétegből. E hálózatok tehát megtestesítik a 2. fejezetben bemutatott esetet, amikor a hálózat által 


modellezett rendszer két egymást követő leképezést valósít meg: egy nemlineáris x—plx) és egy lineáris 


Pisa leképezést. 
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A család minden tagjánál a kimeneti réteg, amely lineáris súlyozott összegzést végez, ellenőrzött tanítású, ahol a 
súlyok meghatározása a szokásos LMS algoritmussal történhet. A nemlineáris leképzést az első réteg valósítja 
meg. Ennek felépítése — bár az egyes hálótípusoknál jelentős különbségek találhatók — abból a szempontból 
bázisfüggvények alkalmazásával végzi. Ezért az egész  hálózatosztályt szokás  bázisfüggvényes 
hálózatosztálynak nevezni. A bázisfüggvényes hálózatok által megvalósított leképezés általános formája 
egykimenetű hálózatot feltételezve: 


Pp 7 0 mg ís) — w"pix) 
im] 


(5.1) 


A bázisfüggvényes hálózatok konkrét típusai a ta (20) 1-1 ,...M bázisfüggvényekben térnek el egymástól. A 
képesség megvalósítható. Az 1. fejezetben láttuk, hogy a bázisfüggvényes hálóarchitektúra 15 működhet 
univerzális  approximátorként, vagyis, amikor egy megfelelő méretű és megfelelő tulajdonságú 
bázisfüggvényekkel dolgozó háló tetszőleges pontossággal közelíthet egy folytonos függvényt (1.6 tétel). 


A bázisfüggvényes hálócsaládba tartozó leggyakrabban alkalmazott hálótípus az RBF háló, ahol radiálisan 
szimmetrikus bázisfüggvényeket alkalmazunk. Ebbe a függvénycsaládba tartoznak pl. a Gauss függvények vagy 
a B-spline függvények 15. A radiális függvényeken kívül további függvények (pl. wavelet [/ha92], [7ha97]) 
alkalmazásával 1s születtek bázisfüggvényes hálók. 


A bázisfüggvényes hálókon belül megkülönböztethetünk paraméteres bázisfüggvényekkel, illetve rögzített 
bázisfüggvényekkel dolgozó hálókat. Az előbbieknél a bázisfüggvények paramétereit szintén a tanuló eljárás 
részeként kell meghatározni. E hálókra az is jellemző, hogy az általuk megvalósított leképezés a 
bázisfüggvények paramétereire nézve már nem lineáris. A bázisfüggvények paramétereinek meghatározása 
lehetséges ellenőrzött tanítással, de egyes esetekben nemellenőrzött tanítás 15 alkalmazható, sőt van olyan eset 
Is, amikor a bázisfüggvények paraméterinek meghatározása a mintapontoktól függetlenül történik. 


A bázisfüggvényes hálózatok más megközelítésben az egyszerű perceptron kiterjesztéseiként 15 vizsgálhatók. 
Láttuk, hogy a perceptron a bemeneti minták lineáris kétosztályos szeparálására képes. A gyakorlati feladatok 
döntő részénél azonban a lineáris szeparálás nem elegendő: a mintákat csak nemlineáris felülettel tudjuk 
szétválasztani. A perceptron működése kiterjeszthető, ha a bemenetére kerülő mintákat előbb nemlineáris 
transzformációnak vetjük alá azzal a céllal, hogy a transzformáció következtében létrejövő mintapontok már 
lineárisan szeparálhatók legyenek, tehát a transzformált tartományban a feladat perceptronnal megoldható 
legyen. Ha e transzformáció során az eredetileg N-dimenziós mintateret egy (M 5 N)-dimenziós tartományra 
képezzük le, akkor a mintapontok számának a dimenzióhoz viszonyított arányát csökkentjük, ami a perceptron 
kapacitásánál (3.1.3. alfejezet) bemutatottak szerint növeli a lineáris szeparálhatóság esélyét. Kellően 
nagymértékű dimenzió-növelés mindenképpen biztosítja a lineáris szeparálhatóságot [Cov65]. 


A bázisfüggvényes hálózatoknál — amennyiben csak a kimeneti réteg paramétereit tanítjuk — a tanulás folyamata 
gyorsabb, mint az MLP hálózatoknál. A nagyobb sebességnek két oka 15 van: egyrészt a módosítandó súlyok 
száma általában kisebb, és minthogy nincs szükség hibavisszaterjesztésre, egy tanítási lépés rendszerint 
kevesebb számítást igényel; másrészt a megfelelő képességű hálózat kialakításához szükséges tanító lépések 
száma is kisebb. Általánosságban azt mondhatjuk, hogy e hálózatok képességei hasonlóak a többrétegű 
perceptron képességéhez, ezért számos alkalmazásban az MLP hálózatok reális alternatíváit jelentik. 


A következőkben a bázisfüggvényes hálózatok két fontos típusával, az RBF és a CMAC hálózatokkal 


foglalkozunk. Bemutatjuk a hálózatok felépítését, a hálózatok létrehozásának lépéseit, a főbb tulajdonságait, 
legfontosabb előnyeit és hátrányait. 


1. Az RBF (Radiális Bázisfüggvényes) hálózat 


Az RBF hálózat olyan két aktív rétegű előrecsatolt hálózat, melyben a rejtett réteg radiális bázisfüggvényekkel 
dolgozó nemlineáris leképezést valósít meg. A háló felépítése az 5.2 ábrán látható. 


5.2. ábra - Az (egykimenetű) RBF hálózat felépítése 
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A hálóban az első rétegbeli processzáló elemek valósítják meg a bázisfüggvényeket. Az RBF hálóknál ezek 
gömbszimmetrikus függvények. Az egyes processzáló elemekhez általában két paraméter tartozik, melyek a 
bázisfüggvények középpont- és szélességparaméterei. A rejtett réteg processzáló elemei minden bemeneti 
vektorhoz eltérő paraméterekkel rendelkező bázisfüggvény-értékeket rendelnek, a kimeneti processzáló elemek 
pedig ezen függvény-értékek lineáris kombinációit határozzák meg. Ha x a hálózat bemeneti vektora, g(.) jelöli 
a radiális bázisfüggvényt, "" pedig az i-edik processzáló elemhez tartozó függvény középpont-paraméterét, 
akkor az RBF hálózat által megvalósított leképezés a következő formába írható: 


s zenel 2mellk- e-w7 2) . (5.1) 


Ez azt jelenti, hogy a rejtett réteg minden processzáló eleme előbb meghatározza a bemeneti vektornak a 
processzáló elemhez rendelt középpont-paramétertől való távolságát, majd e távolságérték valamely nemlineáris 
függvényét számítja kt. 


Az RBF hálózat szintén képes függvényapproximációra. Mint az 1.4. szakaszban láttuk (Id. 1.6. tétel), 


c w 


megfelelően megválasztott g(.) függvény és alkalmas ":" és ":" paraméterek mellett a hálózat tetszőleges 


sale A a 


száma megfelelő. Az approximáció valójában úgy történik, hogy a tanítópontokra vagy a tanítópontokból 
valamilyen módon kialakított ún. klaszterközéppontokra bázisfüggvényeket illesztünk, és ezen bázisfüggvények 


etési altsátb dl 


2. 6)- eep[-r- elé 27] (5.2) 


Gauss függvények, de más bázisfüggvény 1s választható. Szokásos további függvények pl: 
gÍr)-r (szakaszonkénti ineáris approximáció l 

gÍlr)- rő [köbös approximációl 

slrjele ey fN- őzi (8-1/2-— nél multikvadratikus függvény) 

glrj- [e art" c zü (a - 2— nél irrrerz multikvadratikus FÜZEVÉLYI , 
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ahol c30 és ? 7 IF- s l, melyben a ": értékek az alkalmasan megválasztott középpontok. 


Az RBF hálók konstrukciója a háló méretének (a rejtett rétegbeli elemek számának), a bázisfüggvények 
paramétereinek (amennyiben vannak a bázisfüggvényeknek szabad paraméterei) és a kimeneti réteg súlyainak 
meghatározását Jelenti. 


A hálózat komplexitása a rejtett rétegbeli processzáló elemek számától, vagyis az eltérő középpontú 


bázisfüggvények számától függ. A ": középpontok számának meghatározása azonban nem független a 
középpontok helyzetének megválasztásától. A két kérdést tehát együttesen kell vizsgálni. 


Gauss bázisfüggvények esetén a középpontokon kívül az ún. szélességparaméterekre (7:) is szükség van. A ": 
értékekre azonban az approximáció kevéssé érzékeny, ezért ezek széles határok között megválaszthatók. 


Legtöbb esetben a szélességparaméter minden rejtett processzáló elemre azonos, vagyis 777 91-TE 


A rejtett rétegbeli processzáló elemek paramétereit és a kimeneti réteg paramétereit eltérő módon választjuk 


Wa 


meg, 1II. határozzuk meg. A kimeneti réteg paraméterei, a " súlyok vagy analitikus úton meghatározhatók, vagy 


ellenőrzött tanítás során alakíthatók ki. A bázisfüggvény paramétereinek (a ": és esetenként a 7: értékeknek) a 
megválasztására különböző eljárásokat alkalmazhatunk. 


A bázisfüggvények számának és a középpont paramétereknek a meghatározása a tanítópontok számától 1s függ. 
Kevés tanítópont esetén triviális megoldás lehet, ha minden egyes tanítópont egyben függvényközéppont 15 lesz, 
vagyis a rejtett rétegben a processzáló elemek száma megegyezik a tanítópontok számával. A kimeneti lineáris 
réteg tanítása ilyenkor — ahogy ezt a lineáris elemi neuron, az adaline tanításánál láttuk — egy olyan lineáris 
egyenletrendszer megoldását jelenti, ahol az egyenletek száma és az ismeretlenek száma megegyezik. Itt tehát 


analitikus megoldás 15 nyerhető. Ha az x; tanítópontokra adott kívánt válaszokat most 15 . iz], 2, ..., P jelölt, 
akkor a megoldandó egyenlet: 


Gw-d (5.3) 


ahol a G az ún. interpolációs mátrix (a bázisfüggvények által megvalósított leképezések P x P-s mátrixa) és d a 


d, kívánt válaszokból álló oszlopvektor. A kvadratikus mátrix elemei: §97 8" Amennyiben G nem 
szinguláris a megoldásvektor létezik: 


w -G d. (5.4) 


A gyakorlatban (5.4) megoldása nehézségekbe ütközik, ha G közel szinguláris. Ebben az estben a regularizáció 
elmélet (Id. 2.1. szakasz) segítségével juthatunk a megoldáshoz. A regularizáció során a G mátrix helyett a G--4I 
perturbált mátrixot alkalmazzuk, ahol 4 a regularizációs együttható, melynek már igen kis értéke mellett 15 
biztosított, hogy a perturbált mátrix invertálható lesz. A regularizáció valójában azt jelenti, hogy a v-d 
összefüggés helyett egy Gáll az u gs összefüggés megoldását keressük, vagyis olyan súlyokat keresünk, 
melyekkel a háló leképezése a tanítópontokban sem lesz pontos, tehát ott sem fog a kívánt válaszokkal 
megegyező kimeneteket előállítani. Az eltérés függ a regularizációs együttható értékétől. A regularizáció azáltal, 
hogy a tanítópontokban 15 megenged eltérést a kívánt válaszoktól, valójában egy simább leképezést megvalósító 
hálót eredményez. A regularizáció és a simaság kapcsolatáról a későbbiekben, a kernel gépeknél (6. fejezet) 
még lesz szó. 


Az analitikus megoldáshoz az összes tanítópont ismeretére szükség van, és a megfelelő mátrix invertálási 
műveletet el kell végezni. A mátrix invertálás elkerülhető, ha pontonkénti iteratív tanítást (pl. LMS eljárást) 
alkalmazunk. 


Nagyszámú tanítópont mellett minden tanítópont középpontként való felhasználása nem alkalmazható, hiszen 
ekkor sok rejtett processzáló elemet tartalmazó, igen nagy hálót 15 nyerhetünk. Ez egyrészt a szükséges 
számítások mennyiségét nagyon megnövelné, másrészt a sok processzáló elem szükségtelen Is. 


Amennyiben a tanítópontoknak csak egy részéhez rendelünk bázisfüggvényeket, akkor részint a megfelelő 
súlyértékeket az előbbiekben bemutatott megoldástól némileg eltérő módon nyerjük, részint meg kell adnunk a 
középpontként felhasználandó tanítópontok kiválasztási eljárását. 
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Ha a mintapontok száma, P nagyobb, mint a bázisfüggvények száma, vagyis a meghatározandó súlyok száma, 
M, a G mátrix nem lesz kvadratikus. P3M esetében túlhatározott egyenletrendszerrel van dolgunk és analitikus 
megoldást LS értelemben a pszeudo-inverz meghatározásával a (3.23) összefüggésnek megfelelően nyerhetünk: 


wi-GM-(GIGYIGT (55) 


Előfordulhat, hogy a G"G mátrix nem invertálható, lehet szinguláris vagy közel szinguláris akár numerikus 
problémákból adódóan. Ekkor itt 15 a regularizáció alkalmazható: 


wi, - GIa -(G7G 420767 (5.6) 


A megoldást iteratív úton most 15 meghatározhatjuk az LMS algoritmus alkalmazásával. Túlhatározott 
egyenletrendszer esetén a pontonkénti tanulásnál azonban nem kapunk egyértelmű megoldást. Meghatározható 
egy olyan tartomány, melyen belül kell legyen a megoldásvektor. A tartományon belüli konkrét megoldás, 
azonban függ a tanítópontok sorrendjétől és a tanulási tényezőtől Is. 


A középpontok kiválasztásának, illetve meghatározásának néhány lehetőségével a következő részben 
foglalkozunk. 


1.1. Középpont kiválasztó eljárások 


A középpont kiválasztó eljárások célja minden esetben az, hogy az összes tanítópontnál kevesebb 
bázisfüggvénnyel oldjuk meg a feladatot és ezen bázisfüggvények középpont paramétereit valamilyen módon a 
tanítópont-készlethez igazodóan meghatározzuk. A középpont kiválasztó eljárások nagy mintapontszám mellett 
biztosítják, hogy megvalósítható méretű hálóhoz jutunk. 


Nagy mintapontszám több esetben is előállhat. Egyrészt rendelkezésünkre állhat nagyon nagyszámú — több 
tízezer, vagy akár több százezer — tanítópont 15, melyek mindegyikét nem lehet és nem is szükséges 
felhasználnunk. Elegendő egy megfelelő részhalmaz kiválasztása és ennek felhasználásával ún. ritka (sparse) 
megoldás létrehozása. Ebben az esetben a tanító készletünk tulajdonképpen redundáns, így valójában 
Li 


információvesztés nélkül lehet a tanítópontok közül egy részhalmazt kiválasztani: a ": középpontokat 


egyszerűen a tanítópontokból véletlenszerűen kiválasztott X pont képezi. 


Az 1s lehetséges, hogy a tanítópontok egyes csoportjaihoz rendelünk középpontokat. Ekkor valójában a pontok 
klaszterezését kell elvégeznünk. A tanítópontok csoportosítására, klaszterek képzésére bármilyen klaszter 
kialakító algoritmus használható. 


Nagyszámú mintapont akkor is előállhat, ha a megoldandó probléma sokdimenziós. Ekkor a sokdimenziós 
bemeneti tér miatt eleve sok tanítópontra van szükség, hogy a feladatot kellően reprezentáló tanítópont-készlet 
alapján történhessen a háló konstrukciója. (Ezt a sokdimenziós feladatoknál jelentkező nehézséget szokás a 
dimenzió átkának (curse of dimensionality) 15 nevezni. A kérdéskört általánosabban a 13. fejezetben vizsgáljuk.) 
Ilyen esetekben a nagy mintapontszám általában nem redundancia következménye, és a középpontok számának 
csökkentése mindenképpen információvesztéssel jár, a pontokból egy részhalmaz kiválasztása komolyabb 
megfontolást igényel. A véletlenszerű kiválasztás helyett, a megfelelő pontok kiválasztásánál figyelembe kell 
vennünk az eredményül kapott háló képességeit 15. 


A kétféle esetre számos megoldás született. A következőkben előbb egy olyan iteratív eljárást mutatunk be, 
amely fokozatosan növeli a középpontok számát újabb és újabb tanítópontok középpontként való beiktatásával, 
amíg megfelelő képességű hálóhoz nem jutunk; majd az egyik legegyszerűbb és az RBF hálózatok középpont- 
paramétereinek meghatározásánál gyakran alkalmazott klaszterező eljárást, a K-átlagképző vagy K-közép (K- 
means) eljárást ismertetjük röviden. 


1.1.1. Az OLS eljárás 


Az ortogonális legkisebb négyzetes hibájú (OLS) eljárás [Che9l] iteratív módon választ középpontokat úgy, 
hogy közben figyelembe veszi a háló képességét 15. Ez azt jelenti, hogy a háló méretét lépésről lépésre növeljük, 
újabb és újabb bázisfüggvények bekapcsolásával egészen addig, amíg megfelelő teljesítőképességet el nem 
érünk. 


A módszer bemutatásához induljunk ki a háló által megvalósított leképezésből ((5.1) egyenlet). Ha csak 
egyetlen bázisfüggvényt alkalmazunk, a szummás kifejezésnek csak egy tagja lesz: a kimenetek egy adott 
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középpontra illesztett bázisfüggvény súlyozott értékeiként adódnak. Hogy az így kapott egy rejtett elemű , háló" 
milyen képességekkel rendelkezik, azt a rendelkezésre álló ismert válaszú pontokra adott válaszok alapján 
állapíthatjuk meg. Az egyetlen súly értéke egy olyan túlhatározott lineáris egyenletrendszer megoldásaként 
nyerhető (ld. (5.5) összefüggés), melynél a G mátrix egyetlen oszlopot és a rendelkezésre álló P tanítópontnak 
megfelelő P sort tartalmaz. A kapott LS megoldásnak az összes tanítópontra vonatkozó teljesítőképessége 
alapján dönthető el, hogy az egy rejtett elemű , háló" megfelelően oldja-e meg a feladatot vagy sem. 


A megoldás minősége függ az alkalmazott egyetlen bázisfüggvény elhelyezésétől, vagyis a középpont 
paramétertől. Hogy az egy bázisfüggvénnyel dolgozó hálók közül a legjobbat kapjuk, bázisfüggvény- 
középpontként az összes tanítópontot végig kell vizsgálni. Amennyiben az egy bázisfüggvényes hálók 
legjobbika sem elegendően kis hibájú, több bázisfüggvénnyel kell a feladatot megoldani. Így elvben 
meghatározhatjuk a legjobb két, három, stb. rejtett neuronos RBF hálót. Az eljárás gyakorlati alkalmazása a 
hatalmas számításigény miatt nem célszerű vagy nem 1s lehetséges. 


Kisebb számításíigényű az a változat, amikor a hálót oly módon bővítjük fokozatosan, hogy a már kiválasztott 
középpontokhoz választunk újabb és újabb középpontokat. Így egy adott komplexitású háló középpontjait már 
nem módosítjuk. A feladat , mindössze" annyi, hogy a még középpontként fel nem használt pontok közül kell 
minden lépésben az LS értelemben legjobbat kiválasztani, és a már kiválasztottakhoz új bázisfüggvény- 
középpontként hozzávenni. A háló méretét most 15 fokozatosan bővítjük egészen addig, amíg a megfelelő 
teljesítőképességet el nem érjük. A második változat csak szuboptimumot eredményez, és még mindig 
elfogadhatatlanul nagy számításigényű. Az OLS eljárás a háló fokozatos bővítését egy ortogonalizáló lépés 
közbeiktatásával az előbbinél jóval hatékonyabban oldja meg. 


Az OLS eljárás bemutatásához induljunk ki a háló leképezésének mátrixos alakjából: 


MESE 0) 


ahol a G mátrix i-edik sora a háló rejtett rétegének válasza az x; bemeneti vektorra BÉR 7 [2162 E2(3,2. ga ks] 


El. 2. .... B Y -FiJpFp) a tanítópontokra adott válaszokból képezett vektor, és w a kimeneti réteg 
súlyvektora. G tehát felírható, mint egy P sorból álló mátrix: 


gh" 


CG - gíx 


El ] (5.8) 
Ugyanakkor G az alábbi módon 1s értelmezhető 


G-[m..gw] o shol g,- [gőg őü[ 1-1.2.....M (59) 


Itt 8: az j-edik bázisfüggvénynek a P tanítópontra adott válaszaiból képezett vektor. E szerint a háló válaszaiból 
képezett vektor 


Y- 2 ME, 
Fel (5.10) 


formában is értelmezhető. Minthogy a kimenetek vektora a §" vektorok súlyozott összegeként állítható elő, ha a 


B; vektorok lineárisan függetlenek, akkor egyben bázist is alkotnak a kimeneti vektorok terében. 


Adott súlyvektor mellett azonban a háló válaszai nem feltétlenül állítják elő hibátlanul a kívánt válaszokat, 
tehát: 


ui 
d WE, te- Gw te 
s- 


, (5.11) 


ahol e az egyes tanítópontokban kapott válaszok hibáiból képezett vektor. Gw d-nek a §: bázisvektorok által 
kifeszített térre való vetületét adja. Minél kevesebb bázisfüggvényt használunk, annál nagyobb hibával tudjuk d- 
t közelíteni a bázisvektorok által kifeszített térben. A hiba azonban nemcsak attól függ, hogy hány bázisvektort 
használunk, hanem attól is, hogy melyek ezek a bázisvektorok. A bázisvektorok számát a háló 
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bázisfüggvényeinek száma adja meg, azt pedig, hogy mely bázisvektorokat használjuk, a bázisfüggvények 
középpont paraméterei határozzák meg. Minél inkább korreláltak a bázisvektorok, annál kisebb hozzájárulást 
jelentenek a d kimeneti vektor előállításához. Legkedvezőbb az lenne, ha a bázisvektorok ortogonálisak 
lennének, ekkor ugyanis mindegyik bázisvektor a többitől független hozzájárulást jelentene, ahol az egyes 


bázisvektorok hozzájárulásának mértéke egyenként számítható. Az OLS eljárás a §" vektorok transzformációja 
útján egy ortogonális bázisvektor-rendszert hoz létre. 


Ennek érdekében dekomponáljuk a G mátrixot az alábbi módon: 
§- BA (5.12) 


Itt A egy olyan MxM-es felső háromszögmátrix, melynek főátlójában csupa egyesek szerepelnek 


ja Aa 7 A 
ú 1l 0 a szd ye 
ű j 


dl dújgy 


en 44515) 
B pedig egy PxM-es ortogonális mátrix. Az ortogonalitás következménye, hogy B"B-H egy olyan 


jet T- 
diagonálmátrix, melynek főátlójában a 5"! értékek találhatók. 


Az ortogonális vektorok által kifeszített tér azonos a §: bázisvektorok által kifeszített térrel, vagyis a kimenetek 
vektora, d előállítható az ortogonális vektorok súlyozott összegeként Is: 


ÜSS kiszes ővát 
e , (5.14) 


ahol a ?: ortogonális bázisvektorok súlyait a v vektor komponensei adják. Ennek a súlyvektornak a 
meghatározása szintén történhet a négyzetes hiba minimalizálásával. 


vi, - Bla - (BBB - HB" (5.15) 


Itt azonban az ortogonaliítás miatt H" sokkal egyszerűbben számítható, így a súlyokat egyenként 15 meg tudjuk 
határozni. 





bh, — (5.16) 


Ugyanakkor az 15 igaz, hogy 


SAE TK Atti 05 A) 
vagyis, ha ismerjük A-t és v-t, a keresett w súlyvektor 15 meghatározható. 


Az (5.17) összefüggés származtatásához például a klasszikus a Gram-Schmidt ortogonalizáló eljárással 


juthatunk el. Alkalmazzuk az eljárást G ortogonalizálására. Az ortogonalizáló eljárás k-adik lépésében olyan Va 
vektort keresünk, amely a megelőző lépésekben meghatározott k-1 vektor mindegyikére ortogonális. B első 


vektoraként a 8" vektorok bármelyikét választhatjuk. Legyen ezért 
b.- 8 (5.18) 


A k-adik vektor (472, . . ., M) ezek után a következőképpen nyerhető 


ai 
h, —-g, - ab , 
Ún , (5.19) 


ahol 
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bőg, 
bih, 1 £j a k (5.20) 


ht 





Az ortogonalizáló eljárással tehát mind a Vg ortogonális bázisvektorok, mind az A mátrix a; együtthatói 
meghatározhatók. 


Az OLS eljárás célja azonban most nemcsak az, hogy a bázisvektorok mátrixát ortogonalizáljuk, hanem az 1s, 
hogy az ortogonális bázisvektorok egy megfelelő részhalmazát kiválasszuk. Addig, amíg a kundulásnál a G 
mátrix maximum annyi oszlopból állt, ahány tanítópontunk van (egy bázisfüggvényes hálónál, ha minden 
tanítópont egyben bázisfüggvény középpont 15, a G mátrix egy P x P-s mátrix, Id. (5.3)), most az ortogonális 
bázisvektorok egy kisebb számú részhalmazát szeretnénk felhasználni. Az eddigi eljárásból az is látszik, hogy 
az ortogonális bázisvektor-rendszer a kiinduló lépés függvénye, tehát függ attól, hogy h. ként melyik 8. 
bázisvektort választjuk. Sőt, ha nem az összes vektort akarjuk felhasználni, akkor az ortogonális bázisvektorok 
előállítási sorrendje sem közömbös. 


A legfontosabb bázisvektorok kiválasztásához vizsgáljuk meg előbb az egyes bázisvektorok szerepét. Mivel ?. 


és !/ ortogonálisak, ha ij, a kívánt kimenetek négyzetes értéke felírható az alábbi formában: 


d"d - Sb hee 
a (5.21) 


Tételezzük föl, hogy a d kívánt válaszok vektora nulla várható értékű (ha ez nem teljesül, akkor vonjuk ki belőle 
a várható értékét). Ekkor d varianciájának a becslése: 


1 18 i 
—d"d- —ö vh 1 ; 4—efe 
úi Fa F (5.2) 


Az (5.22) összefüggés első tagja az a variancia-komponens, ami a bázisvektorokkal kifejezhető, míg a második 
tagja az ezekkel nem kifejezhető rész. Ebből az 1s látszik, hogy a kimeneti varianciához a j-edik bázisfüggvény 


vh h /P 


hozzájárulása : . Minél nagyobb arányt képvisel ez az érték a kimeneti varianciában, annál fontosabb a 


h Fr § jr Fr e. § ,r jé bó € b kdlé d r , ! önt A a yr 
! bázisvektor felhasználása. A j-edik bázisvektornak a kimeneti varianciához való relatív hozzájárulását az 


la Tr. 
vh h , 


dd (5.23) 





[err] - 


mennyiség fejezi ki. Ez az arány egy egyszerű és hatékony mértéke lehet az egyes bázisvektorok fontosságának. 
Ennek felhasználásával relative kis számításigénnyel minden lépésben azt az ortogonális bázisvektort és a 
megfelelő v; súlyozó együtthatót meg tudjuk meghatározni, melynek a kimeneti varianciához való hozzájárulása 
a legnagyobb. 


Ehhez a Gram-Schmidt eljárást a következő módon alkalmazzuk: 


Az első lépésben minden 1 £ j £ M értékre számítsuk ki a következőket 





dd (5.24) 
Keressük azt az j értéket mely mellett 


[err — max ( lent, 1898 11 (5.25) 


és válasszuk ki első bázisvektornak a 


Mb g, (5.26) 
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vektort. 
A k-adik lépésben, ha k 2 2, minden I £ j £ M, jáji, .... JFjra értékre számítsuk ki a következőket 


híg, 








dem légzi 
h3-g, - S atöh, 
ím] 
viz ták 
hr) ap 
egg a PDI 2) 2 
i dd (5.27) 


Keressük azt a j értéket, mely mellett 
[err] — max ( en, lé ge iM, Téjestéjai (5.28) 


és a k-adik bázisvektornak válasszuk a 


keedzg eval 
7" (5.29) 


vektort, ahol a 7 ag , I Sick. 


Az eljárást az M,-edik lépésben állítsuk le, ha 


1 — ; [err], za 
z , (5.30) 


ahol 0 c p - 1 egy előre megválasztott küszöbérték. 


Az eljárással M, bázisvektort választottunk ki. Bár az OLS eljárás szintén számításigényes, az eredeti 
középpont-válogató eljárásnál jóval hatékonyabb, hiszen minden egyes új bázisvektor beiktatása az addigi 
bázisvektorok változatlanul hagyása mellett történik. Az ortogonális bázisvektorok miatt az 15 igaz, hogy 
minden újabb bázisvektor a megelőzőktől független hozzájárulást jelent a kimenetek előállításához és ez a 
hozzájárulás kiszámítható az éppen aktuális háló teljes kiértékelése nélkül. Az aktuális súlyvektor 
kiszámításához sem kell minden egyes lépésben a pszeudo-inverz számítást elvégezni, hiszen az újonnan 
kiválasztott bázisvektorok együtthatói egymástól függetlenül számíthatók. 


Az eljárás alkalmazásánál fontos a po küszöbérték megfelelő megválasztása, mivel ez szabályozza, hogy a 
végleges háló adott komplexitás mellet milyen pontosságot ér el. Számos alkalmazásban p meghatározása maga 
is az eljárás része. Erre ad egy rendszer-identifikációhoz kapcsolódó példát [Che89]. 


1.1.2. A K-közép eljárás 


A standard K-közép (K-means) klaszter kialakító algoritmus is feltételezi, hogy az összes tanítópont a 
rendelkezésünkre áll. A K-means algoritmus célja, hogy K olyan klaszter-középpontot ( " , k—1,2,...,K) 
határozzon meg, hogy a tanítópontok és a hozzájuk legközelebb eső klaszter-középpont négyzetes távolságainak 
összege minimális értéket vegyen fel. Tehát, ha X az x; i-1, 2, ..., P tanítópontok halmazát, xi pedig azon 


c 


halmazt jelöli, melynek pontjai a " (£k-—1,2,....K) középponthoz lesznek legközelebb, akkor a következő 


kifejezés megoldását keressük : 


min 2, a k.-e,[[ 
157. áágaós (5.31) 


Az algoritmus az alábbi lépésekből áll: 


1. Inicializálás: véletlenszerűen válasszunk meg K középpontot: " , k—1,2,...,K. 
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2. Határozzuk meg minden tanítópontra, hogy mely köze, ponthoz van a legközelebb --(:31gyis alakítsuk ki a K 
klasztert. Ha x;-től a legkisebb távolságra lévő középpont  , akkor x; a k-adik klaszter, —— eleme lesz. 


3. Határozzuk meg az így kialakított klaszterek új középpontjait. Egy klaszter új középponja legyen a 
l 


CT, — — x, 
klaszterekbe tartozó mintapontok átlaga: hanyas (5.32) ahol § az XS klaszterbe tartozó tanítópontok 
száma. 


4. Fejezzük be az eljárást, ha a mintapontok klaszterbe sorolása már nem változik, illetve adott számú iteráció 
után. 


1.1.3. A középpontok ellenőrzött tanítása 


A középpontok meghatározására további lehetőség az ellenőrzött tanítás alkalmazása. Ebben az esetben a 
bázisfüggvények paramétereit a kimeneti réteg súlyaihoz hasonló, tanítható paraméterekként kezeljük és például 
gradiens eljárással tanítjuk. Mivel a bázisfüggvények paraméterei a rejtett réteg leképezését befolyásolják, a 
kimenti hibát a rejtett, bázisfüggvényes rétegre vissza kell terjeszteni, vagyis itt a hibavisszaterjesztéses 
algoritmus egy RBF hálóra kidolgozott változatáról van szó. 


Ha a pillanatnyi gradiens alapú eljárást alkalmazzuk, meg kell határozni a kimeneti négyzetes hiba adott 
középpontra vonatkozó parciális deriváltját. Feltételezve, hogy az alábbi általános (vagyis nem skalár c 
szélességparaméterrel rendelkező) Gauss bázisfüggvényt alkalmazzuk: 


gl R— e, [ zi expl-(x— e ET (x—e 1] , (5.33) 
valamint, hogy egykimenetű hálózatunk van, a láncszabályt alkalmazva a derivált a következőre adódik: 
de (E) a egy zel gym ég kh 


dc, gyik) ög (ke) dc (ka 
- —Ze(kim, gi hecge) — e, [h) b E, (xi) - e (ke) (5.34) 








Itt (9 az i-edik bázisfüggvény ci(k) szerinti deriváltja az x(£4) bemenetre adott értéknél, w; pedig az a súly, 
amivel az i-edik rejtett neuron kimenete szerepel a háló kimentében. A középpont módosító összefüggés ennek 
megfelelően: 


elet) e (mzeti w e (lha -e robzon e d (5.35) 


ahol u a szokásos tanulási tényező. A tanulási tényező értékének megválasztása gyakorlatilag csak tapasztalati 
úton lehetséges és ez az érték általában más 15, mint a kimeneti réteg súlyainak tanításánál alkalmazott LMS 
eljárás tanulási tényezője. Míg az LMS eljárásnál u konvergencia-tartományát meg tudjuk határozni, itt ez 
hasonló módon nem lehetséges. Ennek oka, hogy a kimeneti négyzetes hiba nem kvadratikus függvénye c:-nek, 
sőt ez a függvénykapcsolat nem 1s konvex. A nemkonvex hibafelület további következménye, hogy a gradiens 
alapú eljárás lokális minimumot eredményezhet. 


A tanítással meghatározott középpontok természetesen nem fognak egybeesni a bemeneti pontokkal vagy azok 
részhalmazával. Sokkal inkább úgy igazodnak a tanítópontok elhelyezkedéséhez, mintha egy klaszterező eljárást 
alkalmaznánk. A középpontok tanítással történő meghatározása a középpontok számának meghatározását nem 
oldja meg, tehát hasonlóan a K-közép algoritmushoz, ezt a kérdést a tanítástól függetlenül kell megoldani. 


1.2. A szélességparaméter meghatározása 


Az RBF hálózatok — extrém értékektől eltekintve — nem érzékenyek a c; szélességparaméterek megválasztására. 
Ezt illusztrálja az 5.3 ábra. Az ábrán a szinusz függvény 1] periódusának approximációja látható, különböző 
szélességparaméter-értékek mellett, zajos mintapontok alapján. Az ábrán a bázisfüggvények száma és 
elhelyezése mindegyik esetben azonos. Az 5.3 (a) - (f) ábrákon látható eredmények rendre c—8, 7, 6, 5, 4 és 3 
értékkel készültek. Az (e) és (f) beállítások kivételével, ahol c értéke már túl kicsi, a többi esetben az 
approximációs tulajdonságok jelentősen nem térnek el egymástól. Az ábra szaggatott vonallal a 
bázisfüggvényeket 15 mutatja. 
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Bár a szélességparaméter viszonylag széles határok között változhat anélkül, hogy az approximációs 
tulajdonságok lényegesen megváltoznának, a megfelelő c tartomány, illetve c érték meghatározására célszerű 
módszert adni. Egy egyszerű heurisztikus eljárás az R legközelebbi szomszéd módszer (R-nearest neighbour 
heuristics): 


1. 
ÜT, — — k-e 


ahol az R különböző ": középpont a ": középpont R legközelebbi szomszédja. 


RBF hálózatoknál gyakori, hogy minden rejtett rétegbeli elemnél azonos c-t használunk, vagyis cz —o, k-l, ..., 
K-ra. Tapasztalati eredmények azt mutatják, hogy a közös szélességparaméterre jó becslés, ha egy középpont és 
a hozzá legközelebbi középpont euklideszi távolságainak az átlagát vesszük: 


1 d 
ez ig: 
Eb-el sg 


ahol a "" középpont ": legközelebbi szomszédja. Láthatóan (5.36) és (5.37) között csak az a különbség hogy az 
előbbi esetben R, az utóbbiban K távolság átlagát vesszük. Az R-heurisztikánál R értéke általában kicsi (2-3), 
míg K értékét az öszes középpont száma adja meg. 


A "7: értékek meghatározása ellenőrzött tanítással is lehetséges. Ekkor — hasonlóan a középpont-értékek 
tanításához — egy megfelelően származtatott hibavisszaterjesztéses tanítást használhatunk. Meg kell tehát 
határoznunk a kimeneti négyzetes pillanatnyi hiba szélességparaméterek szerinti gradiensét. Ha általános esetet 
tételezünk fel, minden rejtett neuronhoz más szélességparaméter tartozhat, sőt, mivel a bázisfüggvények 


többdimenziós térben értelmezendők az sem kötelező, hogy a bázisfüggvényekhez skalár "7: értékek 
tartozzanak. Ekkor a (5.33) szerinti többdimenziós Gauss bázisfüggvénynél az összes dimenzió menti azonos 7 


. . -A kir se . kor r § 
szélességparaméter helyett egy £ mátrixot tekintve 2 tanító összefüggését kell meghatározni. 


ask 
- 
ök, 





- edge) wo g (hm -e mbar 
, (5.38) 


ahol 


0.60 - [e9-e PI[r09-eG0] (5.39) 


5.3. ábra - A c szélességparaméter hatása az RBF approximációs képességére. 
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] BALzl SBS Kisza TERET MÉR l-el zén ARNRE MENET E-t E. in ml La zmeztmezzászmnlkszas ezazszzláásakzkeem ám sszem 2. szmazöszálűi em az 
1 ú la ük Er ja 


d HE 


j/ s ze MANN EAT HÉ TAK etékttszznt RNI TER : " A-Am—áátatzz a. kam budin A Kin Tamale dl süt Len mens sz. [oezssszzzi de járása szem szasz zzmzeni 
a j.] í z ú ő : j. JA ) LT : 


I zi J , fa) (Li 


(a) 7-8 ím e? 
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1] 

- "ar 8 f sm j 7 e 3 - "3 ai f. a 1] emi 

1 s seen em leven ge geeez Ég vm zen mmmerr fen vag. ező zé nálla ertsen em mán a ed öö ej Ia em. vom em mem ege mem. Hé - ei. -teeaan ee -emmeng . ed emma em megs pr ező Í E ást ez smm ea semmme va ree om. eétm jer. : mmm. maz szál me meg. ea ves - gene 1. ee 
űj F ú Fi mü rar Hé: mi 7 fh F a 7 í 

a] HI al mi 117 [dm] §i . mm] 11 E - E 


ea " mm 
erne E sm em cm dől ea eme 4 Ea ma en em esem emi a E een ré: He mi e 
va " ma" - 


(e) cb (d) 0-5 





in 





1 FF ámeeszmmszeszűtaelllten sze zene szemen [om-nazn sze zzz lem Lean een szzmszef n-szd 
ha uj - - 
Éj. , 1 


th] Le 4. 1; Fi Ld 15 NEG a T FK Eg 1 Ci [E 


(e) c-4 (f) a-3 
Ezzel a módosító összefüggés általános alakja: 


EJ (kr) - ET - ssz) wo) e (lm -e mDDoB (5.40) 


A gradiens alapú tanítással meghatározott szélességparaméterekre érvényesek a középpontok ellenőrzött 
tanításánál említett általános megjegyzések. Tehát itt sem garantálja a tanító eljárás az optimális értékek elérését 
a lokális minimumok lehetősége miatt. A tanulási tényező megválasztására vonatkozó megállapítás 15 igaz, 
vagyis a szélességparaméter tanításánál alkalmazandó u nagy valószínűséggel különbözni fog mind a kimeneti 
súlyok, mind a középpontok tanításánál alkalmazott tanulási tényezőktől. 


1.3. RBF változatok 


Az RBF hálózatoknak is több változata létezik. John Moody és Christian Darken javasolták a normalizált 
bázisfüggvények alkalmazását [Mo0088]. Gauss függvény esetén ez az alábbi: 


sb exp[-lk- e [7267] 


i Zer[-k-e I 208] YT, 


A normalizálás itt azt jelenti, hogy gyel! bármely bemeneti vektornál (x), vagyis az összes rejtett 
processzáló elem kimenetének (súlyozatlan) összege 1-et ad. A normalizált bázisfüggvények alkalmazását az 
approximációs tulajdonságok javulását mutató tapasztalatok indokolják [Wer93]. 


További változatok hozhatók létre attól függően, hogy a kimeneti rétegben alkalmazunk-e eltolás (bias) tagot 
vagy nem. Mind az 5.1, mind az 5.2 ábrán bemutatott hálózat tartalmaz eltolásértéket, amit wa biztosít. Ezek az 
ábrák általános bázisfüggvényes, illetve általános RBF struktúrát mutatnak. Eltolás alkalmazására azonban a 
bázisfüggvényes hálózatoknál — beleértve az RBF hálózatokat 15 — nincs mindig szükség. Az RBF hálózatoknak 
az a változata, amikor minden tanítópont egyben bázisfüggvény középpont 15, nem igényli az eltolás 
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alkalmazását. Ezt az RBF háló változatot szokás regularizációs hálónak 15 nevezni, mert származtatása egy 
megfelelő regularizációs taggal kiegészített, négyzetes hibát minimalizáló eljárással 15 lehetséges [Pog90]. 


Az RBF hálózatok alkalmazásával kapcsolatban részben hasonló nehézségekkel kell szembenéznünk, mint az 
MLP hálózatok esetében. Itt 15 gondot jelent a hálózat méretének, vagyis a rejtett rétegbeli processzáló elemek 
számának (M) a meghatározása. Ismereteink szerint jelenleg erre nincs egzakt módszer, értékét tapasztalati 
megfontolások alapján választhatjuk meg. Ugyanakkor meg kell jegyezni, hogy az előbbiekben bemutatott OLS 
eljárás valójában a háló komplexitási problémára adható egy lehetséges válasz. 


Hasonlóan, a szélességparaméternél R értékének megállapítására i5 csak tapasztalati eljárások állnak 
rendelkezésünkre. Ezen módszerek lényegében különböző értékü M és R paraméterek mellett felépített 
hálózatok tanítását és tesztelését végzik, és a megtanított hálózatok képességeiből próbálnak a megfelelő 
hálózat-méretre következtetni, így tulajdonképpen a kereszt kiértékelés valamilyen változatának tekinthetők. A 
kereszt kiértékelési eljárásnak a tanítópontok számától függő valamelyik változata tehát alapvető fontosságú 
szerepet tölt be a hálók konstrukciójánál. 


A rejtett neuronok számának meghatározásakor figyelembe kell venni az RBF (és általában a bázisfüggvényes 
hálózatok) egy specialitását. E hálózatok többsége — szemben az MLP-vel — lokális approximációt végez, ami 
azt jelenti, hogy egy bázisfüggvénynek a középpont egy véges környezetében van csak számottevő hatása. E 
véges környezet mérete függ a bázisfüggvénytől és a függvény ac szélességparaméterétől. Minél kisebb c értéke, 
annál kisebb tartományba eső bemenet esetén lesz az adott bázisfüggvénynek (az adott rejtett rétegbeli 
neuronnak) jelentős hozzájárulása a kimenethez. Azt a tartományt, amelybe eső bemenetekre a bázisfüggvény 
jelentős értéket ad a bázisfüggvény érzékelési mezőjének (receptive field) szokás nevezni. Az RBF hálózatoknál 
az érzékelési mező a legtöbb esetben gyakorlatilag véges, még végtelen tartójú pl. Gauss bázisfüggvényeknél 1s. 


A bázisfüggvények számát a szélességparaméter, de leginkább az approximálandó függvény Fourter 
transzformált tartománybeli tulajdonságai határozzák meg. Ha a tanítópontok egyben középpontok is, az RBF 
háló valójában a tanítópontok között végez interpolációt úgy, hogy a tanítópontokban a megtanulandó függvényt 
pontosan előállítja. A tanítópontokat ebben az esetben, mint mintavételi értékeket 15 értelmezhetjük, így az RBF 
hálózatos függvény-approximáció egy mintavételi értékekből történő (általában többdimenziós) jelvisszaállítási 
feladatként is felfogható. A megfelelő jelvisszaállítás — amennyiben a függvény Fourler tartománybeli 
viselkedését ismerjük — megszabja a mintavételezés sűrűségét, a mintavételi pontok számát, ami itt egyben a 
tanítópontok számát és a rejtett neuronok számát 1s jelenti. A gyakorlatban a mintavételezés Nyguist elmélete 
alapján történő rejtett réteg konstrukció általában nem lehetséges, hiszen az approximálandó függvény 
jellemzőit nem ismerjük. Ráadásul gyakorlati feladatoknál a rendelkezésünkre álló tanítópontok (a mintavételi 
pontok) a függvény értelmezési tartományának számunkra fontos részén belül szinte sohasem helyezkednek el 
egyenletesen, ezért a probléma a nemegyenletes (többdimenziós) mintavételezéssel, a nemegyenletesen 
elhelyezkedő mintavételi pontokból történő jelvisszaállítással [Kim90] hozható kapcsolatba. 


Ha a tanítópontoknál kevesebb a rejtett rétegbeli neuronok száma, tehát amikor pl. klaszterezéssel határozzuk 
meg a középpont paramétereket, a helyzet még nehezebb, hiszen itt a középpontok mintavételi pontokként nem 
is értelmezhetők. A mintavételi értékekből való jelvisszaállítással való kapcsolat azonban arra felhívja a 
figyelmet, hogy a tanítópontok száma és elhelyezkedése, az approximálandó függvény Fourtler tartománybeli 
viselkedése, a bázisfüggvények megválasztása és a rejtett neuronok száma nem függetlenek egymástól. 


1.4. A kizáró VAGY (XOR) probléma megoldása RBF hálózattal 


Láttuk, hogy az RBF háló interpretálható úgy 15, mint egy olyan perceptron, ahol a bemenetek nem közvetlenül, 
hanem egy nemlineáris transzformációt követően kerülnek a perceptron bemeneteire. A nemlineáris 
transzformáció — a perceptron kapacitására vonatkozó Cover tétel alapján [Cov65S] — általában dimenziónövelő 
transzformáció 15 egyben. Számos esetben azonban a nemlineáris transzformáció dimenziónövelés nélkül 15 
biztosíthatja a lineáris szeparálhatóságot. Erre mutatunk példát a kizáró VAGY (XOR) kapcsolat RBF hálóval 
történő megoldásával. 


Konstruáljunk egy olyan RBF hálót, melynek két rejtett neuronja van, tehát két bázisfüggvényt alkalmazzunk 
(5.4 ábra). 


A Gauss bázisfüggvények legyenek az alábbiak 


s. be) ep[-lr-e[] 7-4: (5.42) 
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ahol a c; és c. középpontvektorok 


a-tA 700 (5.43) 


5.4. ábra - A XOR problémát megoldó RBF háló 


XX 
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Az (5.42) összefüggés olyan Gauss bázisfüggvényt definiál, ahol 2671. Az ábrán látható RBF háló a XOR 
probléma négy mintapontja közül kettőt használ középpontnak. A hálónak három szabad paramétere van: a wa 
eltolásérték, valamint wi és w2. A súlyok analitikusan 15 meghatározhatók. Mivel négy tanítópontunk van, ehhez 
egy túlhatározott lineáris egyenletrendszert kell megoldanunk, ami a pszeudo-inverz meghatározásával 
lehetséges. 


w"- Gid - (EGYIG (5.44) 


A rejtett réteg válaszaiból képezett G mátrix a fenti bázisfüggvények mellett a következőre adódik: 


l l ü,135 
l Üüs68 Ü,368 


11 üd35 I 
1 0368 0368 (5.45) 


A kívánt válaszok vektora a XOR problémának megfelelően 
4-[I0 1 0 1 (5.46) 
Elvégezve a pszeudo-inverz számítást a megoldásvektor a következőre adódik: 


w [42.840 -2,502 -2,502T (547) 


Az 5.5 (a) ábra a bemeneti térben, a (b) ábra a transzformált térben mutatja a mintapontokat. Látható, hogy a 
transzformált térben a pontok már lineárisan szeparálhatók. Ugyanakkor az 1s látható, hogy a szeparáló egyenes 
nem megy át az origón, ami azt jelenti, hogy szükség van eltolás tagra, amint ezt a megoldás mutatja 15. 


5.5. ábra - A mintapontok elhelyezkedése: (a) a bemeneti térben, (b) a transzformált 
térben (a kereszttel jelölt két mintapont a transzformált térben egybeesik) 
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(a) (b) 
2. A CMAC hálózat 


A CMAC (Cerebellar Model Articulation Controller) hálózatot 1975-ben javasolta James Albus [Alb75S]. A 
perceptronból származtatott hálózat kétlépéses leképezést valósít meg, így sok szempontból rokonítható az RBF 


s a 


transzformált értékek egy lineáris, ellenőrzött tanítású réteg bemenetére kerülnek. 


Az RBF és a CMAC hálózatok között az alapvető különbség a nemlineáris leképezésben van. A CMAC hálózat 
a bemenetet egy ún. asszociációs vektorra képezi le, mégpedig úgy, hogy véges számú, diszkrét bemeneti 
értéket tételez fel, és minden lehetséges bemeneti értékhez egy kölcsönösen egyértelmű asszociációs vektort 
rendel. Ez azt jelenti, hogy a CMAC hálózat kvantált bemenetekkel dolgozik. b-bites kvantálót feltételezve, 
egydimenziós bemenetnél R- 2", N-dimenziós bemenetnél FR" -2" különböző bemeneti értékünk lehet. Az 
egyszerűség kedvéért először az egydimenziós bemenet esetét vizsgáljuk, majd ezután végezzük el a 
többdimenziós bemenetre való kiterjesztést. 


Az egyes bemeneti értékekhez rendelt asszociációs vektor egy olyan sokbites bináris vektor, amelyben minden 
diszkrét bemeneti értékhez rögzített számú, egymás mellett elhelyezkedő bit lesz aktív (1 értékű), míg a vektor 
összes többi bitje 0 értéket vesz fel. Az aktív bitek száma — amelyet a továbbiakban C-vel jelölünk — a hálózat 
fontos paramétere, befolyásolja a hálózat általánosító-képességét. Megjegyezzük, hogy a bináris asszociációs 
vektor miatt az Albus által javasolt CMAC hálózatot szokás bináris CMAC-nak 1s nevezni. Később javasoltak 
ún. magasabbrendű CMAC változatokat 15, melyeknél az asszociációs vektor elemei nemcsak bináris értékeket 
vehetnek fel. Ezekkel a változatokkal a későbbiekben foglalkozunk. 


Az asszociációs vektort úgy 15 elképzelhetjük, mint egy sokelemű neuronréteget, melynek neuronjai közül 
minden különböző diszkrét bemenetre pontosan C kerül gerjesztett állapotba, vagyis ad 1l értékű kimenetet. A 
gerjesztett neuronok célszerűen a rétegben egymás melletti helyeken találhatók és olyan módon kerülnek 
kiválasztásra, hogy az egymáshoz közeli bemeneti értékekre válaszul részben azonos neuronok aktivizálódjanak. 
Az egyes neuronoknak Itt 15 van érzékelési mezőjük (receptive field). Adott bemenetnél mindazon neuronok 
aktivizálódnak, melyek érzékelési mezői tartalmazzák az adott bemenetet. Minél közelebbi értékek kerülnek a 
hálózatra, annál nagyobb lesz az átfedés az aktív neuronok, vagyis az asszociációs vektor aktív bitjei között, 
hiszen a közeli bemenetek nagyrészt azonos érzékelési mezőkbe esnek. Szomszédos, tehát egymástól egy 
kvantumnyirra lévő bemenetekhez a C aktív bitből C-1 lesz közös, míg a legalább C kvantum távolságban lévő 
bemenetekre adott asszociációs vektor válaszokban már nem találunk közös aktív biteket. 


Az érzékelési mezőkkel történő értelmezés alapján az egyes neuronokat tekinthetjük úgy 15, mintha minden 
neuronhoz egy bázisfüggvény tartozna. Ebben az értelmezésben a CMAC háló 1s egy bázisfüggvényes háló, 
ahol bináris és valóban véges tartójú bázisfüggvényekkel dolgozunk. Egydiíimenziós bemenet esetén a 
bázisfüggvények tartója C kvantumnyi intervallum, míg többdimenziós bemenetnél a tartó egy C kvatumnyi 
oldalhosszúsággal rendelkező N-dimenziós hiperkocka. 
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A bázisfüggvényeknek úgy kell elhelyezkedniük, hogy bármely megengedett diszkrét bemenet C bázisfüggvény 
tartójába essen. Így bármely bemenet hatására C rejtett neuron aktivizálódik. Ezt úgy valósíthatjuk meg, ha 
minden bemeneti kvantum (elemi cella) a bázisfüggvényekkel C-szeresen lesz lefedve. Egy lefedés azt jelenti, 
hogy a bázisfüggvények tartói , hézagmentesen" és átlapolódásmentesen a teljes bemeneti tartományt lefedik. 
Ezt mutatja egydimenziós esetre C—4 mellett az 5.6 ábra. 


5.6. ábra - A bemeneti tartomány lefedése bázisfüggvényekkel egydimenziós esetben 
C-4 mellett 


égy lefedéshez tartozó bázisfűggevénvek elhelvezkedese 


ál Mme 
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lefédéseék 
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Az ábrán látható, hogy az egyes lefedésekhez tartozó bázisfüggvények tartói egy kvantumnyi távolsággal 
vannak eltolva egymáshoz képest. Így biztosított, hogy bármely diszkrét bemenet mindig C bázisfüggvény 
tartójába esik és a szomszédos bemenetek által aktivált bázisfüggvények közül C-1 közös. Az ábrán az 15 
látható, hogy adott bemenetekhez mely bázisfüggvények lesznek kiválasztva: x:; a sötétebben (zöld), x, pedig a 
világosabban (sárga) árnyékolt bázisfüggvények érzékelési mezőtbe esik bele. 


Ha többdimenziós esetben 15 hasonlóan fednénk le bázisfüggvényekkel a bemeneti teret, akkor a minden 
dimenzió mentén egy kvantumnyi eltolás azt eredményezné, hogy N-dimenziós esetben C" lefedést lehetne 
kialakítani. Ezt a lefedést teljes lefedésnek (full overlay) nevezzük, és ez azt jelentené, hogy a bázisfüggvények 
száma a dimenzióval exponenciálisan növekedne (a dimenzió átka probléma). Ha megelégszünk azzal, hogy 
dimenziótól függetlenül bármely bemenethez C aktív bit tartozzon az asszociációs vektorban, vagyis egy 
bemenet mindig csak C bázisfüggvény tartójába essen, jóval kevesebb bázisfüggvényre van szükségünk. Az 5.7 
ábra kétdimenziós bemeneti tartományra mutatja a bázisfüggvények elhelyezésének egy lehetséges módját, 
amely a C-szeres lefedést biztosítja C-4 mellett. 


Látható, hogy egy lefedés a bemeneti tér teljes , kicsempézését" jelenti. A bázisfüggvények úgy helyezkednek 
el, hogy minden lehetséges diszkrét bemenet egy lefedésen belül egy és csakis egy bázisfüggvény érzékelési 
mezőjébe esik. Az asszociációs vektorban a C aktív bit úgy biztosítható, ha pontosan C lefedést alkalmazunk. 


Az 5.8 ábrán egy bemeneti mintapontot (a -t jellel megjelölt x pont) és a kvantált bemenet miatt a pontot 15 
magába foglaló elemi cellát (árnyékolt terület) lefedő C érzékelési mező elhelyezkedése látható (C-4). Minden 
egyes érzékelési mező egy bázisfüggvényhez tartozik és minden bázisfüggvény egy bitet jelent az asszociációs 
vektorban. Az adott x bemenet mellett az ábrán bejelölt érzékelési mezőknek megfelelő asszociációs bitek 
lesznek aktívak. 


5.7. ábra - A bemeneti tér lefedése bázisfüggvényekkel kétdimenziós CMAC-nál C-4 
mellett. 
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átlapolódó érzékelési mezők 


mellékátlók 
pontjai 


a főátló pontjai 





kvantálási intervallumok 


Az asszociációs vektor a hálózat kimeneti rétegének bemenetéül szolgál. Minthogy bináris vektorral van 
dolgunk, ez azt jelenti, hogy az asszociációs vektorban lévő aktív bitek C súlyértéket választanak ki a kimeneti 
réteg súlyai közül, majd a kimeneti összegző ezen súlyok összegeként állítja elő a hálózat bemenetre adott 
válaszát. Vegyük észre, hogy ha C-I, akkor minden diszkrét bemenethez csak 1] aktív bit tartozik az 
asszociációs vektorban, és a hálózat kimenete ezen bit által kiválasztott súly értéke lesz. Ha tehát az asszociációs 
vektor pontosan annyi bites, ahány különböző diszkrét bemeneti értékünk lehet, akkor egy egyszerű táblázattal 
állunk szemben. Ha a táblázat értékei — az egyes súlyok — a diszkrét bemenetekre adandó kívánt válaszok, akkor 
a hálózat minden diszkrét bemeneti értékre nyilvánvalóan a pontos kívánt választ fogja adni. 


A CMAC hálózat alapvető architektúráját és leképezéseit mutatja az 5.9 ábra. A gyakorlatban C értékét egynél 
nagyobbra, de az asszociációs vektor hosszánál jóval kisebbre választjuk. A bemenetről az asszociációs vektorra 
való leképezés tulajdonképpen egy bináris kód hozzárendelése a bemenethez, és mivel az M-bites vektorban 
csupán CCSM aktív bit lesz, a bináris kód ritka kód lesz. 


5.8. ábra - Egy bemeneti mintapont tér lefedése bázisfüggvényekkel 
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bázisfüggvények 


Az aktív bitek határozzák meg, hogy a kimeneti lineáris összegző rétegben mely súlyok összegeként áll elő a 
kimeneti érték. Az aktív asszociációs bitek elrendezése biztosítja a hálózat általánosító képességet. Két bemeneti 
vektor, xi; és x, hasonlóságát a hozzájuk tartozó a; és a; asszociációs vektorok metszete mutatja. Ezt az esetet 
illusztrálja az 5.9 ábra, ahol a; és a; aktív bitjei közül kettő közös. Ugyanakkor az ábrán az 1s látható, hogy 
egymástól távol lévő bemeneti vektorok (x; és xi; vagy x2) esetében nincsenek közös aktív asszociációs bitek (a; 
és a; vagy a.). A jobb áttekinthetőség kedvéért az ábrán csak az aktív biteket és az általuk kiválasztott súlyokat 
jelöltük. Természetesen nem szükséges — és többdimenziós bemenet esetén nem 1s lehetséges —, hogy minden 
bemeneti értékhez az asszociációs vektor szomszédos C bitje legyen aktív. A bemenetről az asszociációs 
vektorokra való leképezésnél mindössze azt kell biztosítani, hogy minél közelebb van egymáshoz két bemeneti 
vektor, annál nagyobb átfedés legyen az asszociációs vektorok között, vagyis az asszociációs vektorok 
Hamming távolsága annál kisebb legyen. 


A kimeneti érték — hasonlóan bármely más bázisfüggvényes hálózathoz — az asszociációs vektor (a 
bázisfüggvényes rejtett réteg válasza, a(x) és a súlyvektor skalár szorzataként határozható meg: 


y(x)—a(x) "w. (5.48) 


A CMAC asszociációs vektora bináris vektor, ezért a skalár szorzást valójában nem 1s kell elvégezni, elegendő 
az aktív bitek indexeit ismerni, mivel ezek fogják kijelölni a súlyokat tároló memória azon rekeszeit, 
amelyekben az adott bemenethez tartozó kimenetet meghatározó súlyok találhatók. A kimenet számítása ezért 
ténylegesen csak összeadást igényel, ami egyértelmű implementációs előnyt jelent minden eddigi hálóval 
szemben: 


sd- B w 
mi (5.49) 


5.9. ábra - A CMAC hálózat leképezései 
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2.1. A háló komplexitása 


Az 5.9 ábrán bemutatott elvi felépítésből látható, hogy bár a CMAC háló szintén bázisfüggvényes háló, jelentős 
mértékben különbözik az előbbiekben tárgyalt RBF hálóktól. A különbségnek több oka van. Egyrészt a CMAC 
háló kvantált bemenetekkel dolgozik, ezért itt csak véges számú különböző bemenet fordulhat elő. Másrészt az 
alkalmazott bázisfüggvények nem rendelkeznek szabad paraméterekkel. A háló első rétegének egyetlen 
megválasztható paraméterét, C-t előre rögzíteni kell, és ebből a háló teljes felépítése következik. Mivel a 
bázisfüggvények rögzített elhelyezésűek, a CMAC hálóknál valóban csak a kimeneti lineáris réteg súlyait kell 
meghatározni, ami mind analitikus összefüggés alapján, mind iteratív tanulással (pl. LMS algoritmussal) 
lehetséges. 


A háló komplexitását is C értéke és a bemenet dimenziója határozza meg. A háló első rétege a kvantált 
bemenetekből állítja elő az asszociációs vektor aktív bitjeinek megfelelő memóriacímeket. Ezek a címek adják 
meg, hogy az aktív bitekhez tartozó bázisfüggvények súlyai egy súlymemóriában hol találhatók. Mind az első 
réteg, mind a második, lineáris réteg komplexitását a bázisfüggvények száma, az asszociációs vektor hossza 
határozza meg. Az első réteg a diszkrét bemenetek és az asszociációs vektorok között kölcsönösen egyértelmű 
leképezést valósít meg, tehát minden lehetséges diszkrét bemenethez egy egyedi asszociációs vektor tartozik. 
Ebből adódik, hogy C aktív bit mellett egydimenziós esetben az asszociációs vektor hossza 


M-R4C-1 (5.50) 


lesz, ahol R a lehetséges diszkrét bemenetek száma. N-dimenziós esetben, teljes (C"-szeres) lefedésnél ez 


M-T (Rr0-1 
83 (5.51) 


lenne, ami nagyon nagy érték is lehet. Az összefüggésekből látható, hogy az asszociációs vektor közelítőleg 
annyi bites, mint ahány lehetséges diszkrét bemeneti érték van. Pl. egy 10-dimenziós feladatnál, ahol minden 
bemeneti komponenst 10 bitre kvantálunk, a lehetséges diszkrét bemeneti vektorok és így az asszociációs bitek 
száma már megvalósíthatatlanul nagy: 2". Eddigi formájában a CMAC hálózat súlyait tároló memória tehát 
csak meglehetősen kis bemeneti dimenzió és durva kvantálás mellett lenne realizálható méretű. Ha a teljes 
lefedés helyett az előbbiekben már említett C-szeres lefedést alkalmazzuk, akkor az asszociációs vektor hossza 


közelítőleg már , csak" 
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M : TIR c-1r) 
— -6 - 
lk . . 
calls a Ab (5.52) 





lesz (itt I ! benne lévő értéknél nagyobb legkisebb egészt jelöli). Bár §r nagyságrendekkel kisebb is lehet, 
mint M, ha a dimenziószám, N nagy, a címtartomány még mindig akkora, hogy a súlyok tárolásához szükséges 
memória még mindig irreálisan nagy. Pl. az előzőekben említett 10-dimenziós bemeneti vektorok esetében, ha a 


bemeneti komponenseket 10 bitre kvantáljuk és C—128, a címtartomány mérete, "r közelítőleg még mindig 2", 
ami 128 Gbyte. 


A realizálhatóság érdekében a súlyok számát valamilyen módon tovább kell csökkenteni. Ez viszonylag 
egyszerűen akkor tehető meg, ha van valamilyen a priori ismeretünk a bemeneti mintapontok eloszlásáról. Ha a 
bemeneti mintatérben vannak sűrűsödési helyek, ahol nagy számban találhatók tanítópontok, akkor elsősorban 
ezen tartományokhoz kell aktív asszociációs biteket és így súlyokat rendelnünk. A bemeneti mintatér többi 
részéhez, ahol kis valószínűséggel találunk tanítópontot, egyáltalán ne rendeljünk súlyokat. A priori ismeret 
hiányában ez a megoldás azonban nem alkalmazható. Iktassunk be ezért egy újabb, tömörítő leképezést az 
asszociációs vektor és a súlyvektor közé. S minthogy a bemeneti mintapontok eloszlásáról nincs a priori 
ismeretünk, a legjobb amit tehetünk egy véletlen(szerű) leképezés alkalmazása. 


Rendeljünk az a asszociációs vektorhoz egy z ún. tömörített asszociációs vektort úgy, hogy a minden egyes 
bitjéhez rendeljük hozzá z egy bitjét. A véletlen hozzárendelés miatt az egy bemeneti mintapontra válaszként 
kapott a asszociációs vektor aktív bitjei között fennálló kapcsolat (pl. szomszédosság) z aktív bitjeire már nem 
lesz igaz. A súlyokat ezek után nem a, hanem z bitjei választják ki, tehát a kimeneti érték előállításához azon 
súlyok összegét kell képezni, amelyekre z aktív bitjei mutatnak. A tömörítést 15 alkalmazó CMAC hálózat 
leképezéseit az 5.10 ábra mutatja. 


Ha z bitjeinek száma sokkal kisebb, mint a-é, akkor jelentősen csökkenteni tudjuk a súlyok számát. 
Természetesen e tömörítő leképezés csak úgy valósítható meg, ha megengedjük, hogy a különböző cellái 
véletlenszerűen ugyanarra a z cellára legyenek leképezve, tehát valójában több-egyértelmű leképezést 
alkalmazunk. Az eljárás a nem kölcsönösen egyértelmű leképezés ellenére a gyakorlati feladatok megoldásánál 
jól működik. Ugyanis a hálózat bemenetére a lehetséges diszkrét bemeneti mintáknak rendszerint csak egy kis 
töredéke kerül, így annak valószínűsége, hogy különböző bemeneti mintákhoz azonos z asszociációs vektorok 
tartozzanak csaknem nulla. Annak valószínűsége azonban, hogy egymástól távol lévő bemeneti minták z 
asszociációs vektoraiban közös aktív bitek i5 legyenek már nagyobb. Ilyen esettel elsősorban akkor 
találkozhatunk, ha a tömörítés mértéke ígen nagy, vagyis zZ sokkal kisebb méretű, mint a. Ezt a jelenséget 
"ütközés"-nek hívjuk. Az ütközés következtében az egymástól távol lévő tanító pontok részben azonos súlyokat 
választanak ki, ami a tanításnál interferenciát okoz. Ha az ütközések valószínűsége kicsi, a hatás 
elhanyagolható, illetve a tanító lépések számának növelésével az ütközésből adódó interferencia csökkenthető. 


5.10. ábra - Tömörítést is alkalmazó CMAC hálózat leképezései 
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A lehetséges bemeneth 


vektorok tere 


asszociációs tömörített sülyvektoi 
vektor ASS ZOCIÁCIÓS 
vektor 


Az ütközésnek egy másik fajtája 15 előfordulhat a tömörítés következtében. Egy bemeneti vektorhoz C aktív bit 
tartozik az asszociációs vektorban, így előfordulhat, hogy a C bit közül kettőt vagy többet ugyanarra a z-beli 
bitre képezünk le, vagyis a tömörített vektorban az aktív bitek száma - C. 


A kétfajta ütközést illusztrálja az 5.11 ábra. Az ütközések gyakorisága a tömörítő leképezés megvalósításától, 
továbbá az aktív bitek számának a tömörített asszociációs vektor hosszához viszonyított arányától 15 függ. 


Megmutatható, hogy ha az aktív bitek száma kisebb, mint kb. 190-a a tömörített asszociációs vektor hosszának, 
akkor csak kis valószínűséggel következik be ütközés. Annak valószínűsége pedig, hogy két eltérő asszociációs 
vektorban több mint két bitnél 15 ütközés következzen be, illetve, hogy egy asszociációs vektor kettőnél több 
bitje ugyanarra a tömörített vektor-bitre legyen leképezve gyakorlatilag nulla. Ez arra utal, hogy megfelelő 
tömörítő leképezés alkalmazása nem rontja jelentősen a hálózat képességeit [ EII91 ]. 


5.11. ábra - A tömörítő leképezés ütközései 


ksm! ! ri fösmdsait - 


HA 
78 i 
"TT Kő 





úg ; az 
Mt 1 1. j 
:1 ! hi 
T Lu) 
ütközés különböző asszociációs vektorok ütközes egy asszociációs vektor 
bitjei között különböző bitjei Között 


A tömörítő leképezés azt jelenti, hogy a kunduló (virtuális) címtartományt egy kisebb (fizikai) címtartományra 
képezzük le. A két címtartomány közötti leképezés hash kódolással történhet. A hashelés (a szó azt jelenti, hogy 
összekeverni, összezagyválni valamit) véletlenszerű leképezése különösen a tömörítés miatt fontos, hiszen ez 
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biztosítja, hogy az a asszociációs vektor bitjei a kisebb, tömörített asszociációs vektoron belül egyenletesen 
szétszórva helyezkedjenek el, csökkentve a véletlen ütközés valószínűségét. 


A hash kódolás gyakorlati megvalósítására többféle eljárás alkalmazható [IKnu8$8]. A CMAC hálózatoknál Jól 
használható pl. a polinomosztás. Ha a virtuális címtartomány minden egyes címét, mint egy bináris polinomot 
képzeljük el, akkor ezen polinom osztása során keletkezett maradék-polinom a tömörített, fizikai címtartomány 
megfelelő címét reprezentálja. Az osztó polinom természetesen befolyásolja a leképezés tulajdonságait, ezért 
tetszőlegesen nem választható meg. Ennek részleteire azonban itt nem térhetünk ki, csupán a megfelelő 
irodalomra, pl. [Pet72] utalunk. 


A módszert az alábbi példa illusztrálja. 
5.1 Példa 


Tételezzük fel, hogy egy 32 megaszó méretű virtuális memóriáról kell a hash kódolás során 64 kiloszavas fizikai 
memóriára elvégezni a tömörítést. A virtuális memória megcímzéséhez 25 bit szükséges, a fizikai címek 
megadásához 16 bit elegendő. A polinomosztással történő hashelés tehát azt jelenti, hogy egy 25 bites bináris 
címet reprezentáló 24-ed fokú polinomot kell elosztanunk egy olyan polinommal, hogy a maradék 16 bites 
legyen. A virtuális címnek megfelelő polinomot V(x)-szel, a fizikai címnek megfelelő polinomot P(x)-szel és az 
osztó polinomot G(x)-szel jelölve: 


Flxj- FixrimodG Ír) i 


A 16 bites fizikai címet 15-ödfokú polinommal reprezentálhatjuk, vagyis G(x) fokszáma 16 kell legyen. Legyen 
az osztó polinom a következő: 


a [xj- KÖZP K hr br hr br tr tr txil 

Ezzel pl. a 28.792.695 virtuális cím, amelynek 24-ed fokú polinom reprezentációja: 
tall EA EGG GE a sás lb tlls elp ls elp ölel alt tás elt ll al áll e tl a lta at Ha atta alt tn at Mtv at öltve Ma És 
G(x)-szel történő osztása után a maradékpolinom: 


Flxj- Fame pg br hr br ag ág br al 


? 


vagyis a fizikai cím: 28.401. 


2.2. A CMAC hálózat fontosabb tulajdonságai 


Az eddigiekből látható, hogy a CMAC hálózat az egyéb előrecsatolt hálózatokkal szemben számos előnyös, és 
mint látni fogjuk számos hátrányos tulajdonsággal 15 rendelkezik. Ebben az alfejezetben ezeket a 
tulajdonságokat elemezzük. Előbb megvizsgáljuk a háló approximációs- és általánosító-képességét, majd a háló 
tanításával kapcsolatos kérdésekkel foglalkozunk. 


2.2.1. A háló modellező képessége 


A modellező képesség, a hálózat által megvalósítható leképezés tulajdonságainak tárgyalásánál alapvetően két 
kérdésre keresünk választ: (") milyen feltételek mellett tudja a CMAC háló pontosan megtanulni a tanító 
pontokat, továbbá, ("") milyen leképezést valósít meg a háló a tanító pontok között, milyen a háló általánosító - 
képessége. 


Fenti kérdésekre adható válaszok bizonyos mértékig eltérnek az eddig tárgyalt (MLP, RBF) hálózatoknál kapott 
válaszoktól. Az eltérés a CMAC néhány lényeges specialitásából adódik. Az approximációs képesség 
szempontjából a CMAC hálózat legfontosabb sajátossága, hogy kvantált bemenetekkel dolgozik, vagyis adott 
kvantumon belül tetszőleges bemeneti érték mellett a hálózat kimenete azonos lesz. A hálózat ebből adódóan 
szakaszosan konstans kimenetet szolgáltat, vagyis a megvalósított leképezés eleve nem folytonos. A bemeneti 
kvantálás felbontását elvben tetszőlegesen finomra is választhatjuk, de ennek gyakorlati korlátai vannak. 
Egyrészt a bemeneti analóg jel kvantálására szolgáló A/D átalakítók felbontása véges, másrészt minél nagyobb 
felbontást alkalmazunk, annál nagyobb a hálózat súlyainak száma (Id. az (5.50), ill. az (5.52) összefüggéseket), 
ami különösen többdimenziós bemenetnél realizálhatatlanná teszi a hálózatot. Itt jegyezzük meg, hogy a 
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bemenet kvantálása nem szükségképpen kell, hogy egyenletes legyen, így azon tartományok, elemi cellák 
nagysága, amelyeken belül a háló leképezése konstans, a bemenő jeltől függően változhat 15 [Eld97]. Ugyancsak 
lehetséges, hogy a kvantálás finomsága dimenziónként eltérő legyen (Id. pl. [Gon98]), vagy több, különböző 
felbontással dolgozó CMAC háló kombinálásával egy moduláris háló architektúrát alakítunk ki [M0089]. 


A továbbiakban a szakaszonként konstans leképezést, mint tényt elfogadva azt vizsgáljuk, hogy a lehetséges 
kvantált diszkrét bemeneti értékekhez milyen kívánt válaszok előállítására alkalmas a hálózat, vagyis létezik-e 
olyan súlykészlet, amellyel a tanítópontokban előírt, tetszőleges bemeneti-kimeneti kapcsolatot pontosan 
előállítja a háló. A tanítópontokban adott válaszok mellett fontos kérdés, hogy a tanítópontok közötti pontokban 
milyen a háló válasza. Az előbbi kérdést, vagyis a háló tanítópontokban adott válaszainak a minősítését a háló 
approximációs képességének nevezhetjük, míg az utóbbit az általánosító-képességének. Triviális, de 
megjegyezzük, hogy általánosító-képességgel csak akkor rendelkezik a háló, ha C51. 


2.2.1.1. A háló approximációs- és általánosító-képessége 


A háló approximációs képességének vizsgálatánál meg kell különböztetnünk az egydimenziós és a 
többdimenziós esetet. Egydimenziós esetben tömörítő leképezésre nincs szükség, hiszen itt nincs 
komplexitásprobléma, ezért a háló leképezését döntően a bemenetről az asszociációs vektorra történő leképezés 
határozza meg. A háló kimenetét megadó (5.48) összefüggés alapján az összes tanítópontra adott válasz 


Y-AW (5.53) 


formában adható meg. Az A asszociációs mátrix a tanítópontokhoz tartozó asszociációs vektorokból, mint 
sorvektorokból álló PxM-es mátrix, ahol P a tanítópontok száma, M pedig az asszociációs vektor hossza, amit 
egydimenziós esetben az (5.50) összefüggés ad meg. Amennyiben a d vektorral megadott kívánt válaszokat 
szeretnénk megtanítani, a megoldás súlyvektort az 


Aw-d (5.54) 


egyenletet kielégítő (vagy azt átlagos négyzetes értelemben közelítő) w?" adja meg. Az asszociációs mátrix 
semmiképpen nem lehet négyzetes, mivel M:P még akkor is, ha a bemeneti tér minden lehetséges pontja 
egyben tanítópont 1s. Az (5.54) összefüggés tehát egy alulhatározott lineáris egyenletrendszer, melynek végtelen 
sok különböző megoldása lehet. Tetszőlegesen rögzítve (pl. 0-ra választva) M-P súly értékét, ha A rangja P, a 
lineáris egyenletrendszer egyértelmű megoldásra vezet, amit a pszeudo-inverz segítségével határozhatunk meg. 


wt-Ald- ATAATTM (555) 


Ez a megoldás azt biztosítja, hogy a tanítópontokban a háló válaszai pontosan megegyeznek a kívánt 
válaszokkal. A háló összes lehetséges bemenetre adott válasza ennek megfelelően az 


y-Twt-TATAAT 4 -TATBA (5.56) 


formában adható meg, ahol T az összes lehetséges bemenethez tartozó asszociációs vektorokból képezett RXM- 
es mátrix. 


A tanítópontoktól eltérő bemenetekhez tartozó válaszok részletes elemzése a TA és B mátrixok vizsgálata 
alapján lehetséges. Ezek a mátrixok szabják meg, hogy a háló milyen interpolációs képességgel rendelkezik. A 
mátrixoknak, és különösen a B mátrixnak az elemzése általános esetben komoly nehézségekbe ütközik. 
Speciális esetben azonban, amikor a tanítópontok egyenletesen, egymástól pontosan t kvantumnyi távolságra 
helyezkednek el, a mátrixok analitikusan is felírhatók, és így a háló válaszai tetszőleges bemenethez 
analitikusan 15 meghatározhatók. A vizsgálat arra az eredményre vezet, hogy amennyiben a C/t arány egész, a 
háló a tanítópontok között lineárisan interpolál. Erre mutat példát az 5.12 (a) ábra. Természetesen a kvantálás 
hatását Itt nem tekintjük, a lineáris interpoláció az egyes kvantumokhoz tartozó értékekre vonatkozik. 


5.12. ábra - A CMAC válasza C-8 és (a) t-—5, (b) £—5 mellett 
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(4) (b) 





Ennél érdekesebb azonban, hogy egyéb esetekben, tehát ha a C/t arány nem egész szám, akkor a lineáris 
interpolációhoz képest jelentős eltérés lehet a válaszokban. Ez nyilvánvaló azokban az esetekben, amikor C c t, 
ugyanis a véges tartójú bázisfüggvények miatt ilyenkor található olyan súly, amelyet egyáltalán nem 
módosítunk a tanítás során. Ha C ca t/2, az 1s előfordulhat, hogy egyes bemenetek csak olyan súlyokat 
választanak ki, melyek egyike sem módosul a tanításnál. Az ilyen bemeneteknél a háló válaszát a súlyok kezdeti 
értékei határozzák meg, tehát a válasznak semmi köze a tanítópontok által szolgáltatott információhoz. Az 
általánosítási hiba ezekre az esetekre analitikusan 15 könnyen származtatható. A nagy hiba miatt azonban a C c t 
tartománynak nincs gyakorlati jelentősége. A háló általánosítási képességének vizsgálatából azonban az 1s 
kiderül, hogy még akkor 1s jelentős hiba léphet fel, amikor C : t. Ilyen esetet mutat az 5.12 (b) ábra, ahol a 
sinc(.) függvény CMAC-val történő approximációja látható C—8 és 1—5 mellett. 


Az általánosítási hiba, pontosabban a válaszok lineáris interpolációtól való eltérésének a lineáris interpolációs 
válaszhoz viszonyított relatív hibája C 5 t mellett is felírható analitikusan. Ezt az értéket, amit relatív 
általánosítási hibának nevezünk, a következő összefüggés adja meg [Hor071: 

. minjfmod[C für — modiC fh] 


GEES EK ETET ES 


A fenti összefüggésben 1 az egész rész függvény. A relatív általánosítási hiba alakulását mutatja az 5.13 ábra. 
E szerint a hiba akár 2095 15 lehet. 


5.13. ábra - Az egydimenziós CMAC relatív általánosítási hibája C/t függvényében 


tú 
(4 
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Ez a vizsgálat a tanítópontok egyenletes elhelyezkedése mellett érvényes. A gyakorlatban ritkán találkozunk 
ilyen esettel, a tanítópontok általában véletlen pozíciókban találhatók a bemeneti térben. A vizsgálat 
általánosítása tetszőleges pontelrendezésre azt mutatja, hogy kedvezőtlen esetben a relatív hiba még nagyobb 1s 
lehet, akár a 3399-ot 1s elérheti. 


Többdimenziós esetben a helyzet bonyolultabb. Az egydimenziós esetnek megfelelő többdimenziós CMAC-t 
akkor kapnánk, ha a teljes, C"-szeres lefedést alkalmaznánk. Láttuk, hogy a komplexitás exponenciális 
növekedése miatt ez legfeljebb 2-3 dimenzióig lehetséges. A komplexitás csökkentését szolgálta a teljes lefedés 
leképezés hatása megfelelően megválasztott tömörítő eljárás mellett közelítőleg elhanyagolható, a pontos hatás 
elemzése viszont meghaladja a jelen kereteket, ezért ezzel a kérdéssel nem foglalkozunk. (Meg kell azonban 
jegyeznünk, hogy a tömörítés mindenképpen gyengíti a háló képességeit, ezért ahol csak lehet, célszerű az 
alkalmazását elkerülni [Wan96], [721097]. A későbbiekben, a kernel gépekkel foglalkozó 6. fejezetben be fogjuk 
mutatni a CMAC olyan értelmezését, mely segítségével a tömörítő hash kódolás elkerülhető, anélkül, hogy a 
háló komplexitását extrém módon megnövelnénk.) 


A háló approximációs képességét többdimenziós esetben 15 a bemeneti réteg leképezése határozza meg. Itt 15 
biztosítani kell, hogy az egymáshoz közeli bemeneti vektorok részben ugyanazokat a súlyokat válasszák ki, 
tehát, hogy a megfelelő memóriacímek részben azonosak legyenek. E követelményt teljesítő leképezés egy 
lehetséges megvalósításának elvét kétdimenziós bemenet esetére az 5.14 ábra mutatja, feltételezve, hogy a 
hálózat általánosító paramétere C—-4. 


Az ábrán nem a bázisfüggvények elhelyezkedését látjuk, hanem azt, hogy adott bemenet mellett mely 
bázisfüggvényekhez rendelt súlyok kiválasztása történik meg. A fekete pontok jelölik, hogy a bemeneti 
értékekhez hogyan rendelhetjük hozzá az asszociációs vektor aktív bitjeit. Minden egyes megjelölt fekete pont 
(rácspont) egy bitet képvisel az asszociációs vektorban (egy bázisfüggvényt képvisel), tehát ezekhez a 
pontokhoz kell a címeket hozzárendelnünk. Látható, hogy a kétdimenziós diszkrét mintatérben az egymástól C 
értékkel eltolt átlók rácspontjait használhatjuk fel. Az eljárás könnyen általánosítható N dimenzióra, ahol a 
megfelelő N-dimenziós C élhosszúságú hiperkockák testátlóinak rácspontjai képviselik az asszociációs vektor 
bitjeit. Az árnyékolt területek — melyek kétdimenziós bemeneteknél CxC-s négyzetek — különböző bemeneti 
vektorokhoz tartozó összerendelt rácspontokat és így az összerendelt címeket jelölik. 


5.14. ábra - A címhozzárendelés elve kétdimenziós esetben 
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Az egymáshoz közeli bemeneteknél ("1 és ":) most is lesznek közös címek, míg a kellő távolságban lévőknél ( 
"1 és 5, illetve 8: és §: ) ilyeneket nem találunk. Ugyanakkor az is látható, hogy a szükséges címek tartománya 
csak C-1] esetben egyezik meg a lehetséges diszkrét bemeneti vektorok számával, vagyis ilyenkor He 


memóriacímre van szükség, ha F, az i-edik bemeneti komponens lehetséges értékeiek száma. C51 esetben a 
címtartomány mérete csökken, minthogy ekkor az összes rácspont helyett csak a főátlóbeli és az ezzel 
párhuzamos, tőle kC értékkel (4-1 ,2,...) eltolt mellékátlóbeli rácspontokhoz rendelünk asszociációs biteket. 


Többdimenziós esetben a C-szeres lefedés azt eredményezi, hogy a tanítópontok számától függően az Áw-d 
összefüggés jelenthet mind alulhatározott, mind túlhatározott egyenletrendszert. A-nak most is P sora van, 
hiszen P tanítópont áll rendelkezésünkre, az oszlopok számát (az asszociációs vektor hosszát) pedig az (5.52) 
összefüggés adja meg (M-). Mivel McxAxR és PS R, M- és P viszonya bármi lehet. Az analitikus megoldást, a 
súlyvektor LS becslését az (5.55) összefüggés definiálja. Alulhatározott esetben most 15 végtelen sok 
megoldásunk lehet. 


Iteratív tanításnál bármely, az A mátrix rangjának megfelelő számú tanítóponthoz tartozhat egy megoldás, 
melyek túlhatározott esetben (P5M-c) különbözhetnek egymástól. Az egyes megoldások a megoldástérben egy 
tartományt jelölnek ki — melyet minimális konvergencia-tartománynak nevezhetünk. Ezen belül bármelyik érték 
kiadódhat attól függően, hogy mi a tanítópontok elővételi sorrendje és mekkora a tanulási tényező értéke. A 
tanulási eljárás közben, ha a tanítópontokat ciklikusan vesszük elő, a megoldás ebben a tartományban ciklikusan 
vándorol, megoldásként határciklust kaphatunk, míg véletlenszerű elővételnél a súlyvektor 15 véletlenszerű 
értékeket vesz fel, de a konvergencia-tartományból most sem lép ki. A pontonkénti tanításnál tehát ebben az 
esetben a súlymódosítás sohasem áll le. Batch tanításnál, ami megegyezik az analitikus LS megoldással, 
eredményként a minimális konvergencia-tartomány egy pontja adódik [Par92]. Túlhatározott esetben az 
analitikus LS megoldás és az iteratív LMS alapú megoldás nem feltétlenül azonos. Csak az biztos, hogy mindkét 
megoldás a minimális konvergencia tartományon belül van. 
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5.15. ábra - A szomszédos cellák lefedése kétdimenziós bináris CMAC-nál C-4 mellett 
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Többdimenziós esetben a bináris CMAC korlátozott approximációs képességgel rendelkezik. Ennek 
bemutatásához az 5.15 ábrán látható illusztrációt használhatjuk. Az ábra segítségével azt láthatjuk be könnyen, 
hogy a szomszédos cellák válaszai nem minden esetben lehetnek tetszőlegesek. 


Vizsgáljuk meg a négy számozott elemi cella lefedését. Az 1. (x:-—j, x.—it1) és a 2. cellánál (xi—j--1, x-—i--1) a 
négy lefedő bázisfüggvény közül három azonos, csupán a negyedikben van eltérés. Ez azt jelenti, hogy a két 
bemeneti tartományhoz tartozó válaszok különbsége ennek a lefedésbeli különbségnek a következménye. A 3. 
(xi-]j, XxX27i) és a 4. (x-j-r1, x-—i) cellák lefedése között ugyanazt a különbséget találjuk, mint az előző két 
cellánál. Ebből adódóan a számozott cellákhoz tartozó válaszok nem lehetnek tetszőlegesek. A közöttük lévő 
kapcsolatot az ún. konzisztencia-egyenlet fejezi ki [Bro93]: 


péld — lé) — pls et (5.58) 


ahol y(i) az i-edik cella válasza. A konzisztencia-egyenlet szerint a négy szomszédos elemi cella mindegyikéhez 
nem rendelhetünk tetszőleges kívánt választ; a négy válasz közül három rögzítése megszabja, hogy milyen 
értéket tud a hálózat előállítani a 4. cellánál. Hasonló kapcsolat található az 5-8 számozású cellák válaszai között 
mindegyikénél nem szabható meg a kívánt leképezés, ha azt szeretnénk, hogy a háló pontosan állítsa elő a 
kívánt válaszokat. A konzisztencia-egyenleteket végigterjesztve a teljes bemeneti tartományon látható, hogy a 
bemeneti celláknak csak egy, a C értékétől függő töredékén szabható meg a kívánt válasz szabadon. Ezt 
illusztrálja C-4 mellett az 5.16 ábra, ahol, ha az árnyékolt celláknál megszabjuk a kívánt válaszokat, a többi 
cella által előállítható válaszok kiadódnak. 


Fentiek alapján látható, hogy a bináris CMAC egydimenziós bemenet mellett — a kvantálásból adódó hatásoktól 
eltekintve — a tanítópontokat hibátlanul képes megtanulni. Többdimenziós bemeneteknél azonban ez már nem 
igaz. Minél nagyobb C-t alkalmazunk, annál kevesebb diszkrét bemeneti értékhez rendelhetünk szabadon kívánt 
választ, annál több megkötést teljesítő leképezést képes csak a hálózat megvalósítani. A konzisztencia- 


128 
XMLmind XSL-FO Converter 


Bázisfüggvényes hálózatok 


egyenleteket tetszőleges C érték mellett csak az additív függvényosztály tagjai elégítik ki, vagyis csak olyan N- 
dimenziós leképezések valósíthatók meg pontosan, amelyek az alábbi formába írhatók: 


jöjj e s éső 
27 (5.59) 


Bár az 52) függvények tetszőleges egyváltozós függvények lehetnek, az additív függvényosztályra való 
korlátozás modellező képesség tekintetében hátrány az univerzális approximátor MLP és RBF hálókhoz képest. 


5.16. ábra - A szabadon felvehető (árnyékolt cellák) és a kiadódó (nem árnyékolt cellák) 
cellánkénti leképezések egy lehetséges elrendezése C—4 mellett 
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A háló által megvalósítható leképezésnek a konzisztencia-egyenletekben megfogalmazott korlátozása a 
bázisfüggvények számának növelésével gyengíthető, sőt teljes lefedésnél ez a korlátozás meg 1s szűnik. A 
bázisfüggvények számának növelése azonban komplexitási okokból erősen korlátozott. A klasszikus Albus-féle 
CMAC a bázisfüggvényeket az eddigiekben bemutatott módon a bemeneti tér fő- és mellék-átlóbeli 
rácspontjaihoz rögzíti, míg a teljes lefedés az összes rácsponthoz rendel bázisfüggvényt. A két határeset között 
bármilyen közbenső megoldás alkalmazható, tehát az Albus-féle megoldáshoz további bázisfüggvények 
adhatók. A hozzáadott bázisfüggvények számát elsősorban a komplexitás növekedése korlátozza. A többlet 
bázisfüggvények elhelyezésére pl. ILan92]-ban találunk javaslatokat. 


Az approximációs képességet anélkül is javíthatjuk, hogy a bázisfüggvények számát növelnénk. Ha a 
bázisfüggvények számát nem növeljük, a háló , szabadságfoka" nem nő, így a szabadon felvehető értékű 
mintapontok száma sem fog nőni. A szabadon felvehető és a kiadódó pontok elhelyezkedését azonban 
módosíthatjuk, elkerülve azt, hogy a kiadódó válaszok az 5.16 ábrán látható módon a bemeneti térben sávokban 
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jelentkezzenek. Ez részben a tanításnál a tanítópontok elővételi sorrendjének megváltoztatásával, részben a 
bázisfüggvények elhelyezésének módosításával érhető el. 


A véletlenszerű tanítópont elővételi sorrend az iteratív tanulásnál biztosíthatja, hogy a pontosan megtanulható 
pontok ne az ábrán látható szabályos elrendezés szerint helyezkedjenek el. A bázisfüggvények elhelyezésére 
[Bro94]-ben találunk javaslatot. Az eredeti Albus CMAC által alkalmazott lefedések a főátló pontjaihoz, mint 
referenciapontokhoz vannak rögzítve (Id. az 5.7 és az 5.15 ábrákat). Ha ezeket a referenciapontokat a bemeneti 
térben véletlenszerűen helyezzük el, a hiba , sávosodása" elkerülhető. Meg kell jegyezzük, hogy ez utóbbi két 
módszer az approximációs hibát nem szünteti meg, csak a bemeneti téren belül egyenletesebben osztja szét. 


Látható, hogy approximációs képesség tekintetében lényeges különbség van az egydimenziós és a 
többdimenziós CMAC hálók között. Az általánosítási képességet tekintve, viszont többdimenziós esetben is 
hasonló viselkedést tapasztalunk, mint egydimenziós esetben. Amennyiben a tanítópontok egyenletes t 
osztástávolságú rácson helyezkednek el és C/t-l egész szám, a tanítópontok közötti lineáris interpoláció adja 
meg a háló válaszát. Erre mutat egy példát az 5.17 ábra. Az (a) ábrán a kétdimenziós sinc függvény egy 


sét SE új 


ábrán látható (az ábrán a kvantálás hatásától most 1s eltekintünk). 


5.17. ábra - A 2D CMAC háló válasza C/t-1, C—4 mellett (a) és az eredeti függvény (b) 





(a) (hi 


Ha C/t - Il, az egydimenziós esethez hasonlóan igen jelentős általánosítási hiba léphet fel. Az előző feladat 
megoldása C-4 és t1—3 mellett látható az 5.18 ábrán. 


A nagy általánosítási hiba oka — ha C/t arány nem egész szám — az, hogy a súlyok nagyon különböző értéket 
vesznek fel még akkor is, ha a kívánt válaszok minden tanítópontban azonosak. A különböző értékek azért 
alakulnak ki, mert az egyes súlyoknál a módosítások száma eltérő. A súlymódosítások száma minden súlynál 
csak akkor lesz azonos, ha C/t egész szám. Ezt egydimenziós esetben könnyű belátni. Tekintsük azt az esetet, 
amikor C/t-1. Mivel a C tartójú bázisfüggvények miatt minden tanítópont C szomszédos bázisfüggvényt 
aktivizál és tanításnál az ezekhez tartozó súlyokat módosítjuk, nem lesz olyan súly, melyet több tanítópont is ki 
fog választani. Minden tanító lépésben más és más C súly módosítására kerül sor úgy, hogy a tanítópontok 
egyszeri felhasználása során minden súlyt egyszer és csakis egyszer módosítunk. Mivel az egy tanítóponthoz 
tartozó C súly módosítása azonos mértékű (ld. az LMS algoritmus megfelelő összefüggését), ha a kezdeti 
értékek azonosak voltak, az egy tanítópont által kiválasztott C súly azonos értékű lesz egy teljes tanítási ciklus, 
epoch után 15. Hasonló súlyeloszlást kapunk, ha C/t-I, ahol / 2 2 egész. A különbség mindössze annyi, hogy 
most minden súlyt pontosan /-szer fogunk módosítani. Ezzel szemben, ha a C/t arány nem egész, a módosítások 
száma egyes súlycsoportoknál eltérő lesz, ami eltérő súlyértékeket 15 eredményez. 


5.18. ábra - A CMAC háló válasza C-4 és t—3 mellett 
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0.5 . 





A fenti hatás mérséklése lehetőséget ad a nagy általánosítási hiba csökkentésére. Olyan módon kell módosítani a 
tanulási eljárást, hogy a tanítópontokban fellépő hiba redukciója mellett azt is biztosítsuk, hogy az egy 
tanítóponthoz tartozó súlyok minél inkább egyformák legyenek. Az eljárást a következő részben mutatjuk be. 


2.3. A CMAC háló tanítása 


Mivel a CMAC csak a kimeneti lineáris rétegben tartalmaz tanítható súlyokat, ezek meghatározása az előzőek 
szerint vagy analitikusan, vagy iteratív eljárással, leggyakrabban az LMS algoritmus alkalmazásával történhet. 
A hálózat speciális kialakítása miatt azonban még az LMS algoritmus 15 egyszerűsödik. 


A hálózatban a kimeneti réteget kivéve csak bináris értékek találhatók, a bemeneti nemlineáris leképezést 


bált töbet a 


ált tett d 


szorzásra a hálózatban nincs 1s szükség. A súlymódosítás az LMS algoritmus szerint 
w[kr1j-w [kir uelk] vra [kj-l (5.60) 


ahol a:(k) a k-adik bemenethez tartozó asszociációs vektor i-edik bitje. Tehát az asszociációs vektor aktív bitjei 
által kiválasztott C súlyt azonos mértékben kell módosítani. A módosítás mértéke pedig a hiba, 5" valahányad, 
célszerűen kettő negatív egész hatványad része. Így tehát nemcsak a háló kimeneti értékének kiszámításához — a 
visszahívási fázishoz —, hanem a tanításhoz sem szükséges szorzás. Ez a tulajdonság a hálózatot különösen 
alkalmassá teszi a digitális VLSI megvalósításra, lehetővé téve így a nagysebességű parallel implementációt 
[M1191]. 


További előny a CMAC hálózat ún. inkrementális tanulási képessége. Ennek oka, hogy hasonlóan az RBF 
hálózathoz a tanítópontok hatása csak korlátos bemeneti tartományra terjed ki, a hálózat lokális általánosító- 
képességgel rendelkezik. Míg azonban az RBF hálónál valójában nem lokális tartójú bázisfüggvényeket 
használunk, itt ténylegesen véges (C kvantum oldalhosszúságú hiperkocka) a bázisfüggvények tartója Egy 
tanítóponttól nagyobb távolságra a leképezés kialakításában e pontnak nincs hatása, vagyis az egymástól 
távolabbi bemeneti tartományokhoz tartozó válaszok egymástól függetlenül alakíthatók ki. Egy tanító lépésben a 
kimeneti réteg súlyainak csak a töredéke — maximum C súly — módosul, vagyis az egymástól távol lévő 
tanítópontok a hálózat súlyainak eltérő, egymástól független csoportjaira hatnak, szemben a globális 
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általánosító-képességgel rendelkező többrétegű perceptronnal, ahol minden tanító lépésben az összes súly 
módosul. 


A hálózat lényeges jellemzője a viszonylag gyors tanulás. A gyorsaság azt jelenti, hogy hasonló méretű feladat 
MLP és hibavisszaterjesztéses eljárás feltételezésével csak nagyságrendekkel több tanító lépés alatt oldható 
meg, mint CMAC hálózattal. A nagyobb sebesség részben a lokális tanulás következménye — ezért általában 
viszonylag kevés iterációs lépésre van szükség —, részben abból adódik, hogy egyszerű műveletekre van csak 
szükség. A hálózat leggyorsabban akkor tanítható, ha módunk van a tanítópontok olyan megválasztására, hogy 
az összes tanítópont egyszeri felhasználásával minden súlyt módosítsunk, de mindegyiket csak egyszer. Az 
előbbiekben láttuk, hogy ez egydimenziós bemenetnél akkor érhető el, ha a tanítópontok pontosan C 
kvantumnyi távolságban vannak egymástól, így az egyes tanítópontok mindig másik C elemű súlykészletet 
módosítanak. Ebben az esetben nemcsak az érhető el, hogy a súlyokat egy tanítási ciklusban ki tudjuk alakítani, 
hanem az 1s, hogy a hálózat válasza minden tanítópontban megegyezik a kívánt válasszal, a tanítópontok közötti 
közbenső bemeneti értékekre adott válaszok pedig a szomszédos válaszok közötti lineáris interpoláció 
eredményeként adódnak, ahogy ezt az általánosítóképesség vizsgálatánál láttuk. A tanítópontok egyszeri 
felhasználása — egyetlen epoch — akkor ad hibátlan eredményt, ha megfelelő tanulási tényezőt alkalmazunk. Ez a 
fenti tanítópont elrendezésnél u-—1/C mellett lehetséges. 


A tanulási szabály módosítása, súlykiegyenlítő regularizáció 


Az általánosítási hiba okainak elemzése azt mutatta, hogy a hiba csökkentése lehetséges, ha a tanítás során 
törekszünk arra, hogy az egyszerre kiválasztott súlyok minél inkább azonosak legyenek. Ezt úgy érhetjük el, 
hogy a kritériumfüggvényt kiegészítjük egy olyan taggal, mely ezt a járulékos feltételt kényszeríti rá a súlyokra. 
A megoldás egy regularizációs eljárás, ahol a kritériumfüggvény a szokásos négyzetes tag mellett egy 
regularizációs tagot 1s tartalmaz: 


Ctw) - zla(r1-s Pt E 6 jú új (5.61) 


Látható, hogy a regularizációs tag azt fogalmazza meg, hogy az egy bemenethez tartozó súlyok értékei minél 
inkább a d/C értéket vegyék fel, ahol d az adott bementhez tartozó kívánt válasz. Azonos súlyértékeket általános 
esetben nyilván nem kaphatunk, hiszen ekkor a tanítópontokban kapnánk nagy hibát. A két tag egyensúlyát a 4 
regularizációs együttható megfelelő megválasztásával biztosíthatjuk. 


A fenti kritérriumfüggvénynek megfelelő iteratív, gradiens alapú tanító eljárás a következő: 


w [6-41]-w (k]-4 e(x)ra( 56-49) (5.62) 


A kapott tanulási szabályt súlykiegyenlítő, vagy súlysimító regularizációs szabálynak nevezzük, ahol a két tag 
arányát 4 és 4/ megválasztásával állíthatjuk be. A regularizációs eljárás hatása az 5.19 és az 5.20 ábrán látható. 


Az előbbi egy egydimenziós, az utóbbi egy kétdimenziós sinc függvény esetén mutatja a háló válaszát C-4, 1—3 
értékekre. Az 5.19 (a) ábrán a regularizált változat válasza látható; az összehasonlításhoz a (b) ábrán az eredeti 
Albus változat válaszát 15 megadtuk. Látható, hogy regularizált esetben a válasz nemcsak sokkal simább, hanem 
az approximáció átlagos négyzetes hibája 1s jelentősen csökkent. 


Az 5.20 ábra kétdimenziós mintapéldája 15 azt mutatja, hogy az 5.18 ábrán látható jellegzetes CMAC válasz 
helyett sima választ kapunk. 


A súlykiegyenlítő regularizációnak az általánosítási hibát csökkentő hatását mutatja az 5.21 ábra, ahol a C/t 
arány függvényében az approximáció átlagos négyzetes hibáját adjuk meg az eredeti és a regularizált tanítás 
mellett az egydimenziós sinc függvény tanításánál. A hiba — ahogy vártuk — a kétféle tanító eljárás mellett a C/t 
arány egész értékeinél azonos, köztük viszont a regularizált esetben sokkal, egyes tartományokban akár több 
nagyságrenddel 1s kisebb. Sőt az 15 látszik, hogy regularizált esetben még akkor 15 Jobb megoldást kaphatunk, 
mint regularizáció nélkül, ha közben a tanítópontok számát csökkentjük (C/t arányt növeljük). Az ábra konkrét 
esetre adja meg az approximációs hiba értékét, az eredmény azonban jellegre általánosan 15 érvényes. 


5.19. ábra - A súlykiegyenlítő regularizáció hatása egydimenziós esetben: a háló válasza 


(a) regularizált esetben, (b) regularizáció nélkül 
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(a) ih 


A regularizáció hatását zajos tanítópontok mellett mutatja az 5.22 (a) ábra. Összehasonlításként az 5.22 (b) 
ábrán a klasszikus Albus CMAC válasza látható azonos tanítópont-készlet és háló paraméterek mellett. Amint 
az várható az Albus CMAC-nál a tanítópontokban a válasz hibátlan, ami zajos esetben kimondottan káros. A 
tanítópontokra való tökéletes illeszkedés — ahogy ezt az előzőekben már bemutattuk — egydimenziós esetben az 
eredeti CMAC alaptulajdonsága a szabad paraméterek nagy száma miatt. A szabad paraméterek számának 
korlátozása, vagy valamilyen simasági mellékfeltétel figyelembevétele a háló eredő approximációs képességeit 
Javítja. 


2.4. CMAC változatok 


Az elmúlt több mint 30 évben a CMAC hálózatoknak igen sok változata alakult ki. Ezek a változatok olyan 
módosítások eredményeként születtek, melyek egyrészt a háló képességeinek javítását, másrészt a 
többdimenziós eset extrém nagy komplexitásának csökkentését célozzák. A következőkben előbb az ún. 
magasabbrendű CMAC hálózatokkal foglalkozunk, majd néhány olyan strukturális változtatást mutatunk be 
röviden, melyek a súlyok számának drasztikus csökkentését úgy próbálják elérni, hogy közben a háló 
teljesítőképessége ne romoljon. 


5.20. ábra - A súlykiegyenlítő regularizáció hatása kétdimenziós esetben 
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5.22. ábra - Zajos tanítópontok mellett a CMAC válasza. (a) regular 
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(a) íh) 


2.4.1. Magasabbrendű CMAC hálózatok 


Az eredeti Albus-féle CMAC hálózat bináris bázisfüggvényeket használ, vagyis ezen bázisfüggvények értéke 
bármely olyan bemenetre, amely az érzékelési mezőbe esik 1, míg az összes többi bemenetre 0. A bináris 
bázisfüggvény következménye az egyszerű realizálhatóság — a szorzó nélküli struktúra —, de részben ennek a 
következménye a korlátozott modellező képesség 15. Magasabbrendű CMAC hálózatnál a négyszögletes 
függvény helyett lineáris, kvadratikus, stb. bázisfüggvényeket használunk. Az egyváltozós lineáris 
bázisfüggvény a következő: 

xX 


2] ha 18—f£ ksil 
és 2 


1—2 
glx) 





ha t a C szélességű bázisfüggvény középpont paramétere. Ezek a bázisfüggvények a B-spline függvénycsalád 
elemeinek is tekinthetők. A bináris bázisfüggvény az elsőrendű, a lineáris a másod-, a négyzetes a harmad-, stb., 
és a (£-1)-ed fokú polinommal létrehozott a k-ad rendű B-spline függvény. Az 5.23 ábra k-—1I, 2, 3, 4 esetre 
mutatja az első néhány B-spline függvényt. A B-spline függvények előnye a könnyű előállíthatóság és az, hogy 
egy k-ad rendű B-spline (k-1)-szer deriválható. 


A k-ad rendű B-spline bázisfüggvény az elsőrendű B-spline függvény önmagával vett k-szoros konvolúciója 


útján állítható elő. Ha a bemeneti tartományt kvantáljuk, a kvantált intervallumokhoz hozzárendelt B-spline 
függvényértékek a következő rekurzív összefüggések alapján 15 számíthatók: 


5.23. ábra - Egyváltozós k-ad rendű B-spline bázisfüggvények k-1-4 esetekre 








xy— 4 4 —g 
BIG - — e BIG) —— Hat) 
ik 


Aa7 Aja 174. 
l haxel 
Bf (XI - HEE. 
ú — egyébként (5.64) 


ahol /—(4. 4] a j-edik bemeneti intervallum. 
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N-változós bázisfüggvény az egyváltozós függvények szorzataként nyerhető: 


r/ 


gÚx) si [E [a] (365) 


A lineáris bázisfüggvényt (másodrendű B-spline-nak megfelelő) kétdimenziós esetre az 5.24 (a) ábra mutatja. 


Bár a magasabbrendű bázisfüggvények alkalmazása a modellező képességet javítja, a kvantált bemenet miatt a 
háló által megvalósított leképezés szakaszosan konstans tulajdonsága megmarad, ugyanis egy bemeneti cellán 
(kvantumon) belül, bármely bemeneti értékhez egyetlen asszociációs vektor és ennek megfelelően konstans 
válasz tartozik. A modellező képesség azon hiányossága, hogy a háló a kvantált bemenetek miatt a folytonos 
bemenet függvényében szakaszosan konstans leképezést valósít meg sok esetben nem jelent hátrányt, hiszen a 
bemeneti mintáink úgyis digitalizált formában állnak rendelkezésre (pl. digitális szabályozási feladatok esetén). 


5.24. ábra - Kétdimenziós elsőrendű bázisfüggvény C-8 és 1—(4,.4) paraméterekkel, (a) 
folytonos válozat, (b) kvantált változat 
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(a) (b) 


Ekkor a ténylegesen alkalmazott bázisfüggvény az 5.24 (a) ábrán látható helyett a (b) ábrán bemutatott lépcsős 
függvény lesz. Ennek ellenére már az elsőrendű bázisfüggvény alkalmazása 1s biztosítja, hogy a CMAC háló ne 
csak az additív függvényosztály elemeinek megvalósítására legyen alkalmas. 


Amennyiben mégis analóg bemenetekkel dolgozunk, a kvantálás hatásának kiküszöbölésére több lehetőségünk 
Is van. A magasabbrendű bázisfüggvények alkalmazása lehetővé tenné a folytonos leképezés megvalósítását 
akkor, ha egy bemeneti cellához nem konstans függvényértéket, vagyis nem lépcsős függvényt rendelnénk. Ez 
azt jelenti, hogy pl. kétdimenziós bemenet és lineáris bázisfüggvény mellett valóban az 5.24 (a) ábrán látható 
bázisfüggvénnyel dolgoznánk. Az így kapott B-spline [Lan92] bázisfüggvényekkel a folytonos leképezés 
megvalósítható, sőt nemcsak a függvényértékek, hanem a függvény bizonyos deriváltjai 15 előállíthatók: k-ad 
rendű B-spline bázisfüggvények alkalmazásával a  (k-1)-edik  deriváltakig bezárólag a függvény 
differenciálhányadosai 15 approximálhatók. E megoldás fő nehézsége a bázisfüggvényértékek meghatározásának 
nagyobb számításigénye, valamint az, hogy a bináris CMAC hálók egyik legfontosabb előnyét, nevezetesen, 
hogy sem a tanítási, sem a visszahívási fázisban nem igényelnek szorzást elveszítjük. A lépcsős 
bázisfüggvények mellett Jóval kisebb a számításigény és jóval hatékonyabb hardver struktúra alakítható ki, mint 
a folytonos függvények alkalmazásakor [Hor98], [Ker95]. Alkalmazástól függ, hogy a nagyobb számításigényű 
magasabbrendű, esetleg folytonos változat, vagy az egyszerűbb, de korlátozott képességekkel rendelkező eredeti 
változat mellett döntünk. 


Folytonos leképezés lépcsős bázisfüggvények mellett a kvantálásnál szokásos egyenletes eloszlású additív zaj 
(dither) IL1p92] alkalmazásával valósítható meg. Ennek ára, hogy visszahívási fázisban egy bemenetet nem 
egyszer, hanem többször, különböző additív zaj értékek mellett kell a hálózatra adni és a kimenetek átlaga adja a 
tényleges választ. 


5.25. ábra - Kompakt tartójú Gauss bázisfüggvény CMAC hálóhoz, C-4. 
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A magasabbrendű változatok között megtalálható a Gauss függvényes megoldás 15, amely egy olyan k-ad rendű 
B-spline bázisfüggvényes hálónak felel meg, ahol k elég nagy. Ugyanis k növelésével a B-spline függvények 
tartanak a Gauss függvényhez; k 5 6 esetén a közelítés már igen jó. Gauss bázisfüggvényekkel a CMAC az 
RBF-hez hasonló, azzal az eltéréssel, hogy megtartjuk a CMAC-ra jellemző felépítést, vagyis a 
bázisfüggvények elhelyezési rendszerét és azt, hogy a bázisfüggvények véges tartójúak. Gauss-CMAC hálóknál 
a tartó most 15s egy C kvantumnyi oldalhosszúságú hiperkocka (5.25 ábra). 


2.4.2. Kredit hozzárendelés 


A háló képességeit a tanuló eljárás módosításával 15 javíthatjuk. A kredit-hozzárendeléses tanításnál egy tanító 
lépésben a kiválasztott C súly módosítása nem azonos mértékű. Az egyes súlyokhoz hozzárendelt kredit attól 
függ, hogy az adott súlyt előzőleg hányszor módosítottuk. Minél többször módosítottunk egy súlyt, annál kisebb 
mértékben fogjuk a további tanítási ciklusokban módosítani. A CA-CMAC tanítási összefüggése: 


-1 
my, (ee) hagy (1890 E e) 


u 


(r.41y7 
az (5.66) 


1 uk 1 
ahol f; az i-edik súly eddigi módosításainak száma, az útba) 


bázisfüggvényhez (a w; súlyhoz) rendelt kredit érték. 


összefüggés pedig az i-edik 


A CA-CMAC eljárás [S5u03] hatása részben hasonló a súlykiegyenlítő regularizáció hatásához. Egyrészt simább 
választ eredményez, másrészt a tanítást gyorsíthatja Is. 


2.4.3. Komplexitás csökkentés többdimenziós esetben 


A többdimenziós CMAC esetenként extrém komplexitású lehet, annak ellenére, hogy a válaszok számításához 
csak a súlyok tárolására és egyszerű műveletek elvégzésére van szükség. A szükséges memória mérete azonban 
megvalósíthatatlanul nagy is lehet (a dimenzió átka probléma), ezért ennek redukálása az alkalmazhatóság 
előfeltétele. Az Albus által javasolt hash kódolás ugyan jelentősen csökkenti a súlymemória méretét, de az 
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említett ütközések a tanítás konvergencia tulajdonságait rontják, annak ellenére, hogy az ütközések 
valószínűsége igen kis értékre szorítható [ Wan96], [/7h097]. 


Hash kódolás helyett a súlymemória méretének csökkentésére több lehetőségünk van. Egyrészt egy N-változós 
CMAC dekomponálható kisebb dimenziós CMAC hálózatokra, melyek eredményeit valamilyen módon 
összesíteni kell, másrészt a CMAC-nál 1s alkalmazható az ún. kernel trükk, mely a problémát a bázisfüggvények 
teréből egy ún. kernel térbe transzformálja. A kernel térben a probléma komplexitása dimenziótól függetlenül a 
tanítópontok száma által korlátozott. Az így született kernel-CMAC-t a kernel gépeknél, a 6. fejezetben 
mutatjuk be. A kisebb-dimenziós hálózatokra történő dekomponálás fő eredményeit itt foglaljuk össze. 


Egy N-változós CMAC komplexitását igen hatékonyan redukálhatjuk, ha dekomponáljuk egy- vagy kétváltozós 
hálókra, majd ezek eredményeitt egyesítjük, hogy az eredő háló az eredeti N-változós feladat megoldását adja. A 
dekomponálásra több lehetőségünk 15 van. Ezek egyike az ún. szorzatok összege (sum-of-product, SOP) 
struktúra, amely egy olyan moduláris architektúra, ahol egy- vagy kétváltozós hálók kimeneteinek szorzata 
képezi egy modul kimenetét. 


A teljes hálót több ilyen modul összegeként kapjuk meg. A modulok számát a tanulási eljárás részeként 
határozhatjuk meg fokozatos bővítés útján. Ha adott számú modul összegeként kapott eredő válasz hibája még 
nem elegendően kicsi, további modult alakítunk ki, melyet szintén integrálunk az eddigi hálózatba. Ha 
egyváltozós elemi CMAC hálókból építkezünk, minden modulban mind az N bemeneti változóhoz rendelünk 
egy egydimenziós hálót. Ha az elemi hálók kétdimenziósak, minden modul más-más kétdimenziós CMAC hálók 
szorzatát képezi [Lin96], IL104]. A szorzatok összege struktúra kétdimenziós elemi hálókkal az 5.26 ábrán 
látható. 


5.26. ábra - A szorzatok összege (sum-of-product, SOP) struktúra 






1. modul 


í m. modul 





5.27. ábra - A HCMAC felépítése kétdimenziós Gauss CMAC hálókból 
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kv kimenet 


(GrUMAC D.-edik (kimeneti) réteg 





GUÜMAC GUOMAC (L-1)-edik réteg 





Xi Xa Xs X4 


bemenetek (vagy az előző reteg kimenetei) 


A HCMAC háló ugyancsak kétváltozós elemi hálókat alkalmaz, és egy hierarchikus bináris fa struktúrát épít fel 
[Lee03]. Itt az elemi kétváltozós hálók kimeneteit 15 kétváltozós CMAC hálók dolgozzák fel tovább, tehát egy 
többszintű hálóarchitektúra jön létre. N-változós bemenetek mellett log:N hierarchia szintre van szükség. Az 
egyes kétváltozós CMAC hálók Gauss bázisfüggvényekkel dolgoznak, ahol a bemeneti teret folytonosnak 
tekintjük. A Gauss bázisfüggvények elrendezése ettől függetlenül követi az Albus-féle bázisfüggvény 
elrendezést, ahogy ezt az 5.15 ábra mutatja. A hierarchikus architektúra miatt minden egyes rétegben találunk 
tanítandó paramétereket, a kétdimenziós CMAC súlyait. Ezek tanítása a hibavisszaterjesztéses algoritmus 
alkalmasan módosított változatával lehetséges. A háló architektúráját az 5.27 ábra adja meg. Az ábrán GCMAC 
a Gauss bázisfüggvényekkel dolgozó hálókat jelölt. 


A dekompozíció egy más formáját alkalmazza az MS-CMAC háló [Hun99], [HunOl]. Az N-változós hálót itt 
úgy bontjuk fel egy egyváltozós hálókból építkező hierarchikus architektúrára, hogy az egyes hálókat egymástól 
függetlenül lehessen tanítani. A háló az egydimenziós elemi CMAC hálók esetében megtartja az eredeti Albus- 
féle felépítést, úgy, hogy egy hierarchiaszínten az N változóból csak egynek az értéke változhat, míg a maradék 
N-1 értéke rögzített. Ez azt jelenti, hogy az első hierarchia szinten, a bementi rétegnél csak egy változó, pl. xi a 
valódi bemeneti változó, és annyi egydimenziós hálót kell felépíteni, ahány rögzített értéket a tanítópontokban 
felvehet a maradék N-1 változó: x;, ..., xv. Láthatóan ez a megoldás kihasználja, hogy a bemenetek kvantáltak, 
de a kvantálás nem lehet nagyon finom, különben az egydimenziós hálók száma nagyon nagy lehet. Pl. egy 3- 
bemenetű hálónál, ha a tanítópontoknál az egyes bemeneti komponensek csupán 10-10 diszkrét értéket vehetnek 
fel, az első rétegben 100, a másodikban 10, a harmadikban pedig I egydimenziós CMAC hálóra van szükség. 


Bár összességében az így megvalósított N-dimenziós CMAC jóval kevesebb súlyt igényel, mint az eredeti 
verzió, nagy bemeneti változószám és finomabb felbontás mellett ez 15 elfogadhatatlanul nagy memória- 
komplexitású megoldásra vezet. Ráadásul további korlátozásoknak kell eleget tenni: a háló csak akkor tanítható, 
ha a tanítópontok egy szabályos rács pontjain helyezkednek el. A háló válasza bármely diszkrét érték mellett 
meghatározható, de ha a tanítópontok közötti bemenetekre adott válaszokat akarjuk megkapni, a bemeneti réteg 
kivételével a többi réteg elemi CMAC hálóinál visszahíváskor be kell iktatni egy tanítási fázist 15. 


3. Az MLP és a bázisfüggvényes hálózatok 
összehasonlítása 


Az MLP és a bázisfüggvényes hálók alapvetően hasonló feladatok megoldására alkalmasak, ezért célszerű, ha a 
főbb jellemzők alapján egy rövid összehasonlítást teszünk. Mindkét hálóosztályba tartozó hálók előrecsatolt, 
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többrétegű architektúrával rendelkeznek és mindkét hálócsalád a bemenet(ek) és a kimenet(ek) között 
nemlineáris memória nélküli leképezést valósít meg. A hasonlóság mellett azonban lényeges különbségek is 
vannak, melyek figyelembevétele fontos lehet a gyakorlati alkalmazásoknál. 


A két hálóosztály összehasonlításánál a következő főbb szempontokat célszerű figyelembe venni. Ezek: 


a háló felépítése, 

a hálók approximációs képessége, 

a hálók általánosító-képessége, 

a megoldás egyértelműsége, 

a háló tanításának jellege, 

a tanulás és a működés sebessége, 

a háló számítási1- és memórita-komplexitása. 


A hálók felépítését tekintve a legfontosabb különbség, hogy az MLP paramétereiben nemlineáris, míg a 
bázisfüggvényes hálók alapvetően paramétereiben lineáris leképezést valósítanak meg. Ennek oka, hogy a 
bázisfüggvényes hálók kimeneti rétege lineáris és többnyire csak ez a kimeneti réteg tartalmaz tanítható 
paramétereket. 


Az approximációs- és általánosító-képesség tekintetében a fő különbség nem az MLP és a bázisfüggvényes 
hálók között van, hanem a bázisfüggvényes hálók egyes típusai között. Láttuk, hogy mind az MLP, mind 
egyes bázisfüggvényes hálók (pl. az RBF) univerzális approximátorok. Ehhez az MLP aktivációs 
függvényeinek, illetve a bázisfüggvényeknek meghatározott tulajdonságokkal kell rendelkezniük. Az 
univerzális approximátor képesség azt jelenti, hogy nemcsak a tanítópontokban, hanem a teljes értelmezési 
tartomány minden pontjában biztosítható a tetszőlegesen kis hibájú közelítés. Az univerzális approximátor 
képesség tehát az általánosító-képességre 15 vonatkozik. 


A bináris CMAC ezzel szemben — bár felépítése az RBF-hez hasonló — nem tekinthető univerzális 
approximátornak. Az előzőekben láttuk, hogy a gyakorlatban 15 megvalósítható CMAC komplexitás mellett 
az approximációs- és az általánosító-képesség külön vizsgálandó, sőt külön vizsgálandók az egy- és a 
többdimenziós hálózatok tulajdonságai is. Általánosságban elmondható, hogy mind a leképezés jellege, mind 
az általánosítási hiba tekintetében a bináris CMAC hálók elmaradnak az MLP és RBF hálóktól. Ugyanakkor 
azt ís láttuk, hogy a CMAC hálózatoknak léteznek olyan változatai, melyekkel gyakorlatilag hasonló 
minőségű approximáció biztosítható. Így elmondható, hogy a felmerülő nehézségek ellenére a CMAC háló 
akár az MLP reális alternatívája 15 lehet. 


Az általánosító-képesség tekintetében azonban az MLP és a bázisfüggvényes hálózatok többsége között 
lényeges különbség van. Míg az MLP globális általánosító-képességgel rendelkezik, a bázisfüggvényes 
hálózatokra a lokális általánosítás a jellemző. Ez egyértelműen igaz a CMAC hálókra, de praktikusan igaz az 
RBF hálókra 15. Pontosabban mindazon hálókra igaz, ahol a bázisfüggvények véges vagy gyakorlatilag véges 
tartójúak. A bázisfüggvényes hálóknál a véges tartó következménye, hogy az approximáció jellege eltérő még 
az MLP és az RBF hálóknál is. Általában az MLP válaszai simábbak, mint az RBF válaszai, és az MLP 
ábrák illusztrálják. Azt 15 mondhatjuk, hogy az MLP implicit regularizációval rendelkezik. A lehetséges 
végtelen sok megoldás közül inkább a sima megoldásokat részesíti előnyben. A túltanulást illetően a CMAC 
nemcsak, hogy hajlamos a túltanulásra, hanem a nagyszámú szabad paraméter miatt — különösen 
egydimenziós esetben — a tanítópontokat akár hibátlanul 15 megtanulja, még akkor 15, ha azok nagymértékben 
zajosak (Id. 5.22 (b) ábra). A megfelelő általánosító-képesség biztosításához a CMAC hálóknál a 
regularizációnak nagyon fontos szerepe van. 


A véges tartó következménye a lokális tanulás és az ún. inkrementális tanulás 15. A lokális általánosító- 
képesség azt jelenti, hogy egy tanítópontnak csak egy szűk környezetre van hatása. Az ehhez kapcsolódóan 
jelentkező inkrementális tanulási képesség pedig azt, hogy az egymástól távol lévő tanítópontokat a háló 
egymástól közel függetlenül tanulja meg. Így a megtanult ismeret általában nem degradálódik, ha újabb 
tanítópontok formájában újabb ismeretet kívánunk a hálónak megtanítani, feltéve, hogy az újabb tanítópontok 
kellően távol vannak a már megtanított pontoktól. Az MLP nem rendelkezik az inkrementális tanulás 
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képességével. Minden tanítópont a háló összes súlyát módosítja, ezért az újabb ismeret leronthatja a már 
megszerzett ismeretet, hacsak a régebbi tanítópontokat nem használjuk fel ismételten az újabb pontok 
tanításánál 1s. 


A megoldás egyértelműsége tekintetében 15 lényeges különbségeket találunk az MLP és a bázisfüggvényes 
hálók között. Az MLP paraméterekben nemlineáris leképezése miatt a hibafelület nem kvadratikus. Ez még 
akkor is igaz, ha az MLP-nél is lineáris kimeneti réteget alkalmazunk. A felületen létezhetnek lokális 
egyenértékű megoldásokhoz juthatunk. A lokális minimumok, mint láttuk a háló tanításánál (a gradiens alapú 
tanuló eljárásoknál) okozhatnak komoly nehézséget. A bázisfüggvényes hálók, amennyiben csak a kimeneti 
lineáris réteget tanítjuk, négyzetes hibafelülettel rendelkeznek, ami biztosítja, hogy nincsenek lokális 
minimumok. A paraméterekben lineáris struktúra biztosítja azt 15, hogy a megoldás akár analitikusan 1s 
meghatározható. 


A tanítás jellegét vizsgálva az látható, hogy az MLP-nél analitikus megoldást nem kapunk, a tanítópontok 
egyenkénti vagy kötegelt felhasználásával juthatunk el a megoldáshoz. A bázisfüggvényes hálóknál ezzel 
szemben mind analitikus, mind iteratív megoldás nyerhető. 


A tanulás sebességét nézve a CMAC háló lehet a leggyorsabb. Ennek oka a bemeneti nemlineáris réteg által 
megvalósított egyszerű leképezés és a véges bázisfüggvény tartó, amiből adódik, hogy egy tanító lépésben a 
súlyok töredékét módosítjuk csak. Visszahíváskor szintén csak a súlyok töredékét kell meghatároznunk, 
továbbá a bináris Albus-féle hálóban sem szorzásra, sem nemlineáris függvény (aktivációs függvény, 
nemlineáris bázisfüggvény) számítására nincs szükség. 


A legkevésbé konkrét megállapítások a hálók komplexitásával kapcsolatban tehetők. Bár jelenleg erre 
vonatkozó elméleti eredmény legjobb tudomásunk szerint nincs, adott feladat megoldásánál nagy 
valószínűséggel az MLP igényli a legkevesebb szabad paramétert. Ez annak ellenére igaz, hogy nem tudjuk 
meghatározni a rejtett neuronok (szükséges és elégséges) minimális számát, ha pl. adott pontosságú 
függvényapproximáció a feladat. Ugyanakkor az RBF hálóknál a bázisfüggvények számának felső korlátja 
meghatározható, hiszen ez a tanítópontok számával megegyezik. A CMAC esetében a bázisfüggvények 
száma a háló felépítésből és a C paraméter értékéből egyértelműen kiadódik, és ahogy láttuk, ez extrém nagy 
is lehet. A CMAC háló, tehát annak ellenére, hogy nagyon egyszerű építőelemekből áll, többdimenziós 
esetben a nagy memóriaigény miatt speciális megoldásokat igényel. 


Feladatok 


5.1 Konstruáljon RBF hálót, amely megoldja a két egymásba tekeredő spirál szétválasztását. Vizsgálja meg, 
hogy hogyan befolyásolja a háló eredményét a c szélességparaméter értéke. A kettős spirál mintakészletet az 
alábbi MATLAB kód felhasználásával generálja: 


function [xy, dr] — TwoSpiral() 
xy As[1]i 

AL] 

xy B-[]; 

ét BE] IZ 

for 1-—-0O:96 


angle — i Y pi /16; 


radius — 6.5 " (104 - i1)/104; 


y 


— radius §" sin(angle); 


— radius §" cos(angle); 


xy A— [xy A; x, y]; 


KA 


A c [doA íj; 


xy B — [xy B; -x, -yI; 
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d.B s [a B; s4]a 

end; 

xyz [xy A; xy BI; 

dt s [d 5; d B]; 

save two spiral l xy dr; 
ÖLOCIRY Al tri] yEy Alászie "99 
hold on; 

olótizy Bíi:;1il]jszy Blspzzéle "0"; 
hold off; 


5.2 Oldja meg a paritásproblémát (N-bites bemeneti minták páros és páratlan paritású csoportokra való 
szétválasztása) RBF hálózattal. Vizsgálja meg, hogy a bázisfüggvények száma és elhelyezése, valamint a c 
szélességparaméter hogyan befolyásolják a megoldást. 


5.3 Egy RBF hálózatnál a rejtett rétegbeli neuronok paramétereinek, a bázisfüggvények középpont- és 
szélesség-paramétereimnek meghatározását is ellenőrzött tanítással, gradiens módszerrel kívánjuk végezni. 
Határozza meg a tanítási összefüggéseket, ha Gauss bázisfüggvényeket használ. 


5.4 A 


(fa gő 
glri- [c 4? ) c 5 0,r2 0 multikvadratikus függvény 


és a 


a 
g(ry-let er] c5 0, r2 0 inverz multikvadratikus függvény 


két lehetséges radiális bázisfüggvény választás. Az inverz multikvadratikus függvényt alkalmazó RBF háló 


lk Alk d 


lokális approximációs működésére ellenpélda. Igazolja ezt a két állítást. 


5.5 A XOR feladat nemlineárisan szeparálható feladat. Mutassa meg, hogy megfelelően megválasztott 
középpontokkal az RBF rejtett rétegének kimenetén a bemeneti mintapontok olyan transzformált értékeit 
nyerjük, melyek már lineárisan szeparálhatók lesznek. Mutassa meg, hogy 2 rejtett elem elegendő a lineáris 
szeparálhatóság biztosításához, ha eltolás-értéket í15 használunk. Konstruáljon olyan RBF hálót a feladat 
megoldására, ahol nincs eltolás tag. Hány bázisfüggvénnyel tudja megoldani a feladatot? 


5.6 Mutassa meg, hogy az additív függvényosztály kielégíti a bináris CMAC konzisztencia egyenleteit 
függetlenül attól, hogy az általánosító paraméter C értéke mekkora. 


5.7 Határozza meg, hogy mi az a függvényosztály, melyet az elsőrendű, a másodrendű, stb. CMAC hálózatok 
képesek modellezni. 


5.8 Határozza meg, hogy milyen választ ad a CMAC háló a C távolságra lévő tanítópontok között 
négyszögletes, lineáris illetve magasabbrendű bázisfüggvények alkalmazásánál. 


5.9 Mutassa meg, hogy nulla kezdeti értékből kundulva tömörítés nélküli esetben a CMAC tanítása konvergens. 


5.10 Képes-e megtanulni egy bináris (elsőrendű, másodrendű) CMAC az "" anln) sinlr] kétváltozós 
függvényt? Mi a helyzet az RBF illetve az MLP hálózatokkal? Konstruáljon egy-egy megoldást a három 
különböző hálózattal és hasonlítsa össze az eredményt az approximáció minősége, a háló mérete és a tanítás 
sebessége szempontjából. 


5.11 Hogyan tudná a CMAC hálózatnál a kvantálásból adódó szakaszonként konstans leképezést folytonos 
leképezéssé módosítani? 
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5.12 Oldja meg a négydimenziós sinc problémát a szorzatok összege (SOP) architektúrával, ha a szorzat 
modulokban kétdimenziós CMAC hálókat használ. Mekkora lesz a kapott háló memória komplexitása? 
Hasonlítsa össze ezt a komplexitást egy ugyanilyen felbontású bináris CMAC komplexitásával. 


5.13 Hasonlítsa össze a súlysimító regularizáció és a kredit hozzárendelés hatását a CMAC háló válaszára. 
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Ebben a fejezetben olyan tanuló rendszerekkel foglalkozunk, amelyek a válaszokat ún. kernel-függvények (vagy 
magfüggvények) súlyozott összegeként állítják elő. A megközelítés bizonyos rokonságot mutat a 
bázisfüggvényes hálózatokkal, hiszen ott 15 függvények súlyozott összegeként kapjuk a megoldást, azonban a 
származtatás a kétféle megközelítésnél jelentősen eltér. A bázisfüggvényes hálóknál a bázisfüggvények által 
megvalósított nemlineáris leképezés a mintapontokat a bemeneti térből egy ún. jellemzőtérbe képezi le, és a 
megoldást a jellemzőtérbeli reprezentáció felhasználásával nyerjük. A jellemzőtérre való leképezés célja, hogy 
egy eredetileg csak nemlineáris eszközzel megoldható problémát lineáris eszközzel megoldhatóvá 
transzformáljunk: egy nemlineárisan szeparálható problémát lineárisan szeparálhatóvá tegyünk, vagy egy 
nemlineáris regressziós feladatot lineáris regressziós feladattá transzformáljunk. 


tat All a 


megoldatlan kérdés a jellemzőtér dimenziójának, vagyis a bázisfüggvények számának a meghatározása. Annyit 
tudunk csak biztosan, hogy ha a jellemzőtér dimenziója , kellően nagy", akkor pl. a lineáris szeparálás 
lehetősége garantált. Azonban az általában nem definiált, hogy mit tekinthetünk , kellően nagy7-nak. Ha a 
jellemzőtér dimenzióját , túl nagy"7-ra választjuk, akkor egyrészt feleslegesen növeljük a tanuló rendszer 
komplexitását, másrészt a szabad paraméterek száma túl nagy lesz, aminek túltanulás és a teljesítőképesség 
romlása is lehet a következménye. Olyan megoldásra volna szükségünk, ahol a jellemzőtér dimenziója 
, automatikusan kiadódik" nemcsak azt biztosítva, hogy lineáris megoldást kapunk, hanem azt 15, hogy a 
megoldás hibája, a 2. fejezetben definiált valódi kockázat, a lehető legkisebb lesz — függetlenül attól, hogy hány 
dimenziós a jellemzőtér. Az ún. kernel gépek ezt a célt próbálják elérni. 


A kernel gépeknél is alkalmazzuk a jellemzőtérbe való transzformációt, a feladatot azonban nem a 
jellemzőtérbeli reprezentáció felhasználásával oldjuk meg, hanem erről áttérünk egy ún. kernel reprezentációra 
és a kernel térben kapjuk a megoldást. A jellemzőtérbeli és a kernel térbeli reprezentáció közötti kapcsolat egy 
újabb transzformációként 15 értelmezhető. Míg a jellemzőtérben valójában bázisfüggvényes megoldással 
dolgozunk, addig a kernel térbeli reprezentáció a jellemzőtérbeli reprezentációból belső szorzattal nyerhető. 


A kernel térbeli reprezentáció azzal az előnnyel jár, hogy ítt a szabad paraméterek száma független a 
jellemzőtérbeli reprezentáció szabad paramétereinek számától. Ezt az előnyt ki 15 tudjuk használni, ha a belső 
szorzatot egy megfelelően megválasztott kernel függvénnyel helyettesítjük, vagyis ahelyett, hogy adott 
bázisfüggvényeket definiálnánk és ezek skalár szorzatát felhasználva állítanánk elő a kernel reprezentációt, 
közvetlenül a kernel függvényt választjuk meg. A kernel függvény megválasztása implicit módon meghatározza 
a jellemzőtérbeli leképezés bázisfüggvényeit és így a jellemzőtérbeli reprezentációt 15, anélkül, hogy a 
bázisfüggvényeket közvetlenül kellene definiálni és felhasználni. 


A fejezet célja, hogy bemutassa a kernel módszerek alapgondolatát és a legfontosabb kernel gépek 
konstrukciójának a lépéseit. A bemutatásnál a legegyszerűbb, lineáris feladatból kundulva jutunk el a 
nemlineáris problémák kernel géppel történő megoldásáig. A fejezet azt 15 bemutatja, hogy kernel 
reprezentációs megoldásra több, különböző megközelítés vezethet. Ezek közül talán a legfontosabb az 
elsősorban Vladimir Vapnik nevéhez köthető szupport vektor gép (support vector machine, SVM). A szupport 
vektor gépek azon túl, hogy a kernel térben szolgáltatják a megoldást, további fontos tulajdonságokkal 1s 
rendelkeznek. Az SVM-nél — az eddig bemutatott hálóktól eltérően — a megoldás komplexitása és 
teljesítőképessége kézben tartható. A fejezet ugyanakkor azt 15 bemutatja, hogy kernel gépek származtathatók a 
klasszikus négyzetes hiba-minimalizáló eljárással 15, tehát bizonyos értelemben az eddig tárgyalt 
neuronhálóknak 15 létezhetnek kernel változatai. Ehhez kapcsolódóan a fejezet tárgyalja az LS5-SVM hálózatokat 
és az ún. ridge regressziós (ridge regression) megoldást 1s. 


A kernel gépek elméleti háttere szorosan kapcsolódik a belső szorzat terek (inner product spaces, dot product 
spaces) és a Hilbert terek (Hilbert spaces), témakörökhöz. A fejezet ezzel a kapcsolattal csak utalás szinten 
foglalkozik, a témakör iránt mélyebben érdeklődők a bőséges irodalomban, pl. [Sch02], [Vap98], [Szó72] 
tájékozódhatnak. 


A fejezet felépítése a következő. Először bemutatjuk az irodalomban gyakran kernel trükknek nevezett 
módszert, ami lehetőséget ad a kernel függvények közvetlen felírására, alkalmazására. Ezt követően bemutatjuk 
a legismertebb és legelterjedtebb kernel módszert alkalmazó eljárást, a szupport vektor gépeket (Support Vector 
Machines — SVM), valamint ennek néhány változatát. A szupport vektor gépek jelentős számításigényű 
eljárások. A számítási igények csökkentésére ezért az SVM megközelítésétől néhány ponton eltérő kernel 
megoldások 1s születtek. Ezek között a legfontosabbak az LS-SVM és az ezzel matematikailag azonos, de más 
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indítékból származó ridge regresszió. A fejezetben ezeknek a megoldásoknak a származtatását 15 összefoglaljuk, 
és arra 15 kitérünk, hogy mi az ára az egyszerűbb számításoknak. Az LS-SVM a szupport vektor gépek egyik 
fontos tulajdonságát, nevezetesen, hogy ritka (sparse) megoldást elveszíti. Elsősorban e hiányosság 
kiküszöbölését célozza az LS7--SVM, valamint a ridge regresszió egy redukált változata, melyeket szintén 
összefoglalunk. A fejezet végén egy konkrét hálózat kapcsán megmutatjuk, hogy a bázisfüggvényes hálózatok 
kernel gép formában 15 megfogalmazhatók, biztosítva így a kernel megközelítés előnyeit. 


1. Egy egyszerű kernel gép 


A kernel reprezentációt a legegyszerűbben talán egy lineáris regressziós feladat kapcsán mutathatjuk be. Adott 
egy lineáris be-kimeneti leképezést megvalósító eszköz, amit a továbbiakban lineáris gépnek nevezünk: 


P(x sweet (6.1) 
Itt az eddigieknek megfelelően w a lineáris gép súlyvektora, b pedig az eltolásérték. Amennyiben 
rendelkezésünkre áll egy Xs dih ha tanítópont készlet, olyan súlyvektort keresünk, ami mellett a 


1. roi 
me MESÜKE ÜT a) 


kritérriumfüggvény minimumot vesz fel. A minimális négyzetes hibát biztosító súlyvektor — ahogy ezt az előző 
fejezetekben már láttuk — a kritériumfüggvény deriváltja alapján határozható meg. A b eltolásértéket a 


$-[dw?T 


súlyvektor nulladik komponenseként kezelve és bevezetve a kibővített súlyvektort " , valamint a 


kibővített bemeneti vektort £7LX 7 is, a lineáris gép válasza £ bemenet mellett 


J(8- írá - 7 úr Z, 
z (6.3) 


formába írható, ahol N a bemeneti x vektorok dimenziója. A tanítópontokban a lineáris gép válaszai és a kívánt 
válaszok közötti eltérésekből képezhetünk egy hibavektort 


err) -d-Éw , (6.4) 
melynek segítségével az eredő négyzetes hiba a 


Cr - et) Er — 7 - Kir) (d- Xi (6.5) 


összefüggéssel adható meg. Itt d a tanítópontokban a kívánt válaszok vektora, É pedig a tanítópontok kibővített 
bemeneti vektoraiból képezett mátrix: 


r 


nt 


r 


hapi 


2 


hdla 
II 


zo" 

"F 1. (6.6) 
Elvégezve a gradiens számítást és a gradienst nullává téve 
FOG 


-XdrX"Xw 7-0 
(6.7) 


a súlyvektor legkisebb négyzetes hibájú (LS) becslését most 1s a pszeudo-inverz segítségével kapjuk meg: 


W-KIXXT (6.8) 
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Ha a kapott súlyvektort behelyettesítjük a (1.3) összefüggésbe, akkor adott £ -re a lineáris gép válasza a 
következő lesz": 


pi zkt ET XKUXXETÜ (6.9) 
Vezessük be az 
u-(XKKTd (6.10) 


jelölést. Ekkor a kimenet az alábbi formában 1s felírható: 


PH) -iXu - E ált tb de ő ez (ÉT 
ai i 2 . (6.11) 


ahol 5 az § vektor i-edik komponense és A - MA (6.11) összefüggés származtatásánál figyelembe vettük 
a tanítópontokhoz tartozó bemeneti vektorok (6.6) összefüggését. Így £"£" egy olyan vektor, melynek elemei az 
£ bemenet és az ": tanítópont-bemenetek skalár szorzataiként állnak elő: 


mp aTz xx 
X 2 [x Az Agg s-ak Aa ca új X.] (6.12) 


A (6.11) összefüggés érdekessége, hogy a lineáris gép egy £ bemenetre adott válasza a skalár szorzattal 


definiált £(0- fá, függvények súlyozott összegeként határozható meg. Egy lineáris gépnél ezeket a 
függvényeket nevezzük kernel függvényeknek vagy magfüggvényeknek. 


A (6.11) összefüggés a lineáris regressziós leképezés alternatív felírását jelenti. Míg az eredeti (1.3) összefüggés 
a bemenetek súlyozott összegeként adja meg a választ, ahol a súlyokat a Y súlyvektor képviseli, addig a 


kerneles reprezentációban a kimenet a E ÉN RER, függvények súlyozott összegeként áll elő, ahol a súlyokat az a; 
együtthatók jelentik. 


edőt MME 4 


Nyilvánvaló, hogy a két reprezentáció ekvivalens. A (6.3) összefüggés a megoldást a , bemeneti térben", 
közvetlenül £ függvényeként adja meg, míg a (6.11) összefüggés ugyanezt a ,kernel térben", a (9 - 44, 


kernel értékek függvényeként teszi meg. 


A most vizsgált lineáris leképezésnél a kernel reprezentáció különösebb előnnyel nem jár, mindössze egy 
alternatív megadási formát jelent. A különbség a kétféle reprezentáció között csupán annyi, hogy a két szummás 
kifejezésben a tagok száma eltérő. A bemeneti térben történő összegzés N7-1 tagból, míg a kernel térbeli P 
tagból áll. A kernel reprezentáció tehát akkor előnyös, ha a mintapontok száma, P jóval kisebb, mint a bemeneti 
adatok dimenziója, N. 


Más a helyzet akkor, ha nemlineáris leképezést akarunk megvalósítani. A nemlineáris feladatok egy lehetséges 
megoldása a bázisfüggvényes hálók alkalmazása, vagyis, ha a kimenetet az (5.1) összefüggéssel megadott 


je 5 GJ KÉK 
2 (6.13) 


alakban állítjuk elő, ahol "" képviseli az eltolás tagot (bias), amennyiben (97! . 


A bázisfüggvényes leképezés a bemeneti térből az ún. jellemzőtérbe transzformál. A jellemzőtérbeli megoldás 
alternatívájaként viszont most 15 alkalmazható a kernel térre való áttérés. A lineáris esetre vonatkozó fenti 
gondolatmenetet követve a (6.13)-mal megadott leképezés kerneles változata úgy nyerhető, hogy a (6.11) 


összefüggésben minden ff helyére "ix kerül. (A továbbiakban — hacsak ez nem okoz értelmezési zavart — külön 
nem jelezzük, hogy kibővített bemeneti vektorról van szó.) Ezzel: 


sees eeezr 
! A válasz (6.9) szerinti meghatározásához az CR 1! inverznek léteznie kell. Ha (88 1 szinguláris vagy közel szinguláris, a regularizáció 


erezte ezer -I 
alkalmazható, amikor LA J] helyett CAA tAD szerepel. (Id. még 2.1 szakasz illetve Függelék.) 
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FÜR 7 pld ban — a (pe prea - 2, (ali 
Ia] 1] 


9, 


ami azt jelenti, hogy a kimenetet most 1s a skalár szorzattal definiált kernel értékek súlyozott összegeként 
állítjuk elő. Itt a 


px px a - Elghn KÉRx (6.15) 
függvény a kernel függvény, amit tehát a bázisfüggvények skalár szorzatával nyerhetünk, míg a 


mén 
fe mix] 
vi) ] (6.16) 


mátrix a tanítópontok jellemzőtérbeli reprezentációiból felépülő mátrix. 


A (6.15) összefüggéssel megadott kernel reprezentáció itt 15 ekvivalens az eredeti reprezentációval ((6.13) 
összefüggés), és alkalmazása önmagában különösebb előnnyel itt sem jár az összegzésben szereplő tagok 
esetleges kisebb számán túl. A kernel reprezentáció előnyei akkor látszanak, ha a kernel függvényeket nem a 
bázisfüggvények skalár szorzataként határozzuk meg, hanem közvetlenül felvesszük, tehát ha nem a 
bázisfüggvényekből, hanem a kernel függvényből indulunk ki. Kernel függvényként azonban bármilyen 
függvény nem használható, hiszen a kernel függvény még akkor 15 bázisfüggvények skalár szorzatával 
származtatható függvény kell legyen, ha a származtatásnál nem ezt az utat választjuk. Érvényes kernel 
függvénynek bizonyos feltételeket teljesítenie kell. A kernel függvény megválasztása implicit módon 
meghatározza a jellemzőtérre való leképezést biztosító bázisfüggvényeket 15. Ez viszont már magában rejti a 
kernel megközelítés egy nagyon lényeges előnyét. 


Amint az a (6.14) összefüggésből látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel 
függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér 
dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, 
akár végtelen 1s lehet, ami a (6.13) szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné 15 
tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. 
Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk 
elérni, hogy a megoldás komplexitását akkor 15 korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli 
megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek 
(kernel trick) nevezzük. 


Nemlineáris esetben a kernel reprezentációt — legalábbis koncepcionálisan — két lépésben érjük el. Először a 
bemeneti térről megfelelő bázisfüggvények alkalmazásával nemlineáris dimenziónövelő transzformációt hajtunk 
végre. Ennek eredménye a jellemzőtérbeli reprezentáció. A feladatot azonban nem itt, hanem egy újabb 
transzformáció után a kernel térben oldjuk meg. A jellemzőtér és a kernel tér között a skalár szorzat teremti meg 
a kapcsolatot, és mindkét származtatott reprezentációra igaz, hogy az eredetileg nemlineáris probléma a 
származtatott reprezentációkban már lineárisan megoldható. A reprezentációk kapcsolatát mutatja a 6.1 ábra. 


A koncepcionális származtatás mellett azonban fontos hangsúlyozni, hogy a kernel reprezentáció 
alkalmazásánál nem a 6.1 ábrán bemutatott utat követjük, a kernel térbe nem a jellemzőtéren keresztül jutunk el, 
hanem épp ellenkezőleg a kernel térből indulunk ki, és ez automatikusan definiálja a jellemzőteret. A fordított út 
előnye — ami a kernel trükk következménye —, hogy nem kell a jellemzőteret definiálnunk, ami egyébként sok 
esetben komoly nehézséget jelentene, dolgoznunk sem kell a praktikusan nehezen kezelhető jellemzőtérben, 
hanem közvetlenül a kernel teret definiáljuk és a megoldást 1s itt nyerjük. Mindehhez az egyik legfontosabb 
követelmény a megfelelő kernel függvény megválasztása. 


6.1. ábra - A nemlineáris leképezések az eredeti probléma tértől a kernel térig. 
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Szék pix) ra... K(x.xy pi(x) pix) 


szeparáló sik szeparáló egyenes 








bemeneti tér jellemzőtér kernel tér 


2. Kernel függvények 


Az előzőekből nyilvánvaló, hogy kernel függvényként csak olyan függvény használható, amely belső szorzat 
segítségével 15 származtatható. A származtatás módjából következik, hogy a kernel függvények bizonyos 
tulajdonságokkal kell rendelkezzenek. 

Egy kernel függvénynek mindig két argumentuma van és ezekre nézve a függvény szimmetrikus kell legyen: 


Kixx 1 -pex d glx- pix 1 g(x 1 KR X (617) 


A kernel függvények — minthogy az adatok közötti hasonlóságot mérik — általában kielégítik a következő 
követelményeket Is: 


Klx.Xx)zŰ 
Kixx)- Kip, 
Klxx17- max Álx,x 1,171,..., F. 


lim X()-0, ha t- [xx] (6.18) 


A fentiek közül az első a nemnegativitást, a második a radiálisan szimmetrikus tulajdonságot jelenti. A 
harmadik feltételnek eleget tevő függvény maximumértéket vesz fel, ha mindkét argumentuma azonos, míg az 


utolsó azt fogalmazza meg, hogy a függvény a két argumentum távolságának monoton csökkenő függvénye. 


K(x, 


A kernel függvényekkel támasztott követelmények precízebben 15 megfogalmazhatók: "X.) lehet bármely 


olyan szimmetrikus függvény, amely kielégíti a Mercer tétel feltételeit [ Vap98]: 


[doc ér(ddrazz Vf e függvényre, ahel [Are (6 19) 


ugyanis a Mercer tételt kielégítő függvények előállíthatók valamilyen jellemzőtérbeli pka függvények skalár 
szorzataként: 


Kix.d) - pld e, (2) 
J 


ahol 47" , Néhány gyakran alkalmazott kernel függvényt az alábbi táblázatban foglalunk össze. 


6.1. táblázat - A legelterjedtebben használt magfüggvények (kernel függvények). 


Lineáris KÖx.x xx 





Polynomiális Klx.x)-[x7x1 T 
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(d fokszámú) 


Gauss (RBF) KÍx, x] 88 exp[-I- s, r fe] 


, ahol konstans. 


Tangens Klx,x)- tanhíkx x-4ő) , t és § megfelelően 
hiperbolikusz 


választott konstansok, mert nem minden 
(MLP) 


kombináció eredményez magfüggvényt. 





A táblázat azt 1s jelzi, hogy egyes kernel függvények alkalmazásával olyan kernel térbeli hálóstruktúrát kapunk, 
amely bizonyos klasszikus neuronháló struktúrákhoz hasonló. Így pl. a Gauss kernel függvények az RBF 
hálóval rokon struktúrát, a tangens hiperbolikusz kernel függvény pedig olyan MLP hálózattal rokon struktúrát 
eredményez, melynek a kimeneti rétege lineáris. 


A fenti, gyakran alkalmazott függvények mellett számos további függvényt használnak kernel függvényként. 
Megválasztásuk az egyes kernel gépeknél alapvetően fontos és sokszor igen nehéz kérdés. A választás 
nehézsége akkor jelentkezik, ha adott feladathoz , optimális" kernelt szeretnénk választani. Általában a 
gyakorlati feladatok megoldásánál nem 1s törekszünk , optimális?" kernel megválasztására, hanem az előbb 
felsoroltak, vagy egyéb, szintén bevált függvények (pl. B-spline) közül választunk. 


A kernel függvények megválasztásának illetve konstrukciójának részleteivel itt nem foglalkozunk, csak az igen 
széleskörű irodalomra utalunk ld. pl. [Sch02], stb. Annyit azonban megjegyzünk, hogy megfelelő kernelek 


lő AB ő 


képezhetők. Ha pl. mind KI, mind K2 érvényes kernel, továbbá, ha a tetszőleges pozitív konstans, akkor a 
következő műveletekkel további érvényes kernelek konstruálhatók: 


Kixzj— Kilxzijt Ko(x.z) 
Klx.z - ak (x,z) 
Klnz— kilazk lez] (6.21) 


Fentiekből az is következik, hogy kernelek lineáris kombinációja szintén kernel, ha a lineáris kombináció 
együtthatói nemnegatív számok. 


A kernel függvények előre történő megválasztása mellett az utóbbi időben számos olyan eredmény született, 
mely adatfüggő vagy adaptív kernelekkel oldja meg a feladatokat. Erre vonatkozó eredményeket mutat be 
többek között pl. [Cr199], [Ama99], [ Vin00], LX1005] és [Mer06]. 


e Le ál 


X) i, J-1, ..., P tanító minta-páron értelmezett értékeiből képezett Ks—K(x;,xj) kernel mátrix, amely tartalmazza a 
P tanítópont összes lehetséges mintapárjánál a kernel függvény értékét. 


kn. x 3 s Hi x I j EL ps X1] 
E - KÜx,xX. s KÖR, x Hi KÉR px 
Klxyxg ss Elxpágd ss Alx e R] (6.22) 


A kernel mátrix fontos jellemzője, hogy egy FF -es szimmetrikus mátrix. Az ilyen mátrixot szokás Gram 
mátrixnak 15 nevezni. 


3. Szupport Vektor Gépek 


Az előzőekben bemutatott egyszerű kernel gép arra adott példát, hogy az 5. fejezetben bemutatott 
bázisfüggvényes hálók kernel gépként is értelmezhetők. Ennél az értelmezésnél a probléma megfogalmazása 
nem változott az eredeti bázisfüggvényes megfogalmazáshoz képest: mindkét esetben az átlagos négyzetes hiba 
minimumát biztosító megoldásra törekedtünk. 
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Kernel gépek azonban más megközelítésből 15 konstruálhatók. A Bernhard Boser, Isabel Guyon és Vladimir 
Vapnik által Javasolt szupport vektor gép [Bos92 ] talán a legfontosabb, több új szempontot 15 hozó kernel 
gépnek tekinthető. A szupport vektor gépek olyan kernel gépek, melyek a statisztikus tanuláselmélet 
eredményeit is hasznosítják. Alapváltozatuk lineáris szeparálásra képes, amely azonban kiterjeszthető 
nemlineáris szeparálásra és nemlineáris regressziós feladatokra 1s. 


Amint azt korábban láttuk, a lineáris szeparálási feladat megoldható egy egyszerű perceptronnal. A Rosenblatt 
perceptron azonban egy lineárisan szeparálható feladat egy lehetséges megoldását adja, miközben tudjuk, hogy 
lineárisan szeparálható mintapontok esetében általában végtelen sok különböző megoldásunk lehet. Ezek a 
megoldások egyenértékűek abból a szempontból, hogy mindegyikük egy olyan lineáris elválasztó felületet 
határoz meg, amely a tanítópontokat hibátlanul szétválasztja. A szeparálás minősége azonban az egyes 
megoldásokban mégis jelentősen különbözhet. Ezt illusztrálja a 6.2 ábra. 


6.2. ábra - Egy lineárisan szeparálható feladat különböző megoldásai 





Bár az ábra bal oldali részén látható összes egyenes hibátlanul szétválasztja a tanítópontokat, az a sejtésünk, 
hogy a jobb oldalon látható folytonos vonallal rajzolt egyenes kitüntetett a lehetséges megoldások között. A 
mintapontokból történő tanulásnál ugyanis nemcsak a tanítópontok megtanulására törekszünk, hanem megfelelő 
általánosítóképesség elérésére 15. A mintapontok valamilyen — számunkra általában ismeretlen — eloszlású 
mintahalmazokból származnak, és a feladat nemcsak a véges számú ismert válaszú tanítópont helyes 
osztályozása, hanem az egész osztályozási feladat minél jobb megoldása 15. Feltételezve, hogy a tanítópontok 
kellően reprezentálják a megoldandó problémát, azt várjuk, hogy az az elválasztás eredményez jobb 
általánosítóképességet, amely a két osztályba tartozó tanítópontok között, a tanítópontoktól a lehető legnagyobb 
távolságra helyezkedik el. A lineáris kétosztályos osztályozási feladat megoldását adó szupport vektor gép ezt az 
, Optimális" elválasztó felületet határozza meg. 


A következőkben előbb ezt a legegyszerűbb esetet és a megfelelő megoldást mutatjuk be, majd a szupport 
vektor gépeket kiterjesztjük lineárisan nem megoldható osztályozási, végül nemlineáris regressziós feladatok 
megoldására 15. 


3.1. Lineárisan szeparálható feladat lineáris megoldása 


Fentiek értelmében optimális lineáris szeparálásnak azt a megoldást tekintjük, amikor az elválasztó egyenes (sik, 
hipersik) a két osztályba tartozó tanítópontok között a pontoktól a lehető legnagyobb távolságra helyezkedik el. 
A pontok között középre elhelyezett szeparáló felületet a tanítópontoktól egy margó (margin), azaz egy 
biztonsági sáv választja el, ezért az így megoldható feladatokat maximális tartalékot vagy maximális margót 
biztosító lineárisan szeparálható osztályozási feladatoknak 15 nevezzük. A következőkben ennek a feladatnak a 
megoldását mutatjuk be. 


F 
Legyenek adottak az xs dlih ha tanítópontok, ahol az § ceE" N-dimenziós bemeneti pontok két osztály 


valamelyikéből származhatnak, vagyis a kívánt válaszok a két lehetséges érték egyikét veszik fel: éve EA Egy 


-w"xth 


olyan §(7 szeparáló függvényt keresünk, amely a tanítópontokat hiba nélkül osztályozza: 
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w" x tb2arÚÜ ha d --i 


w"x,tbS-ac0 ha do--1 12 P (6.23) 


továbbá, ahol a hipersikhoz legközelebb álló tanítópontoknak a síktól vett távolsága maximális. A (6.23) 
egyenlőtlenségben a valamilyen kis pozitív konstans, d; pedig az x;-hez tartozó kívánt válasz. 


A hipersíik paramétereinek megfelelő skálázásával biztosítható, hogy 


w"x.bb2dl ha d-- 


w"x, rhZ -] ha ei, — -] (6.24) 


legyen, vagyis a síkhoz legközelebb eső pontokban az elválasztó függvény abszolút értéke 1 legyen. Így a 
feladat az alábbi tömörebb formában 1s felírható: 


díw"z 4BJZ1 1-1,2,....P (625) 


Jelölje az optimális szeparáló lineáris felület paramétereit Wés b , és határozzuk meg egy x pontnak ettől a 


hipersíktól való távolságát. A 6.3 ábrát követve jelölje "F az x pont merőleges vetületét a szeparáló felületre. 
Ekkor a pont felírható a vetület és a szeparáló felület normálvektora segítségével: 














we 








tni — ni ti — ú . 71" Ld HA . , (4 , , , yr 
Mivel Sí 7" ss dalt ide , vagyis az x pontnak az optimális szeparáló hipersíktól való távolságára 
Eta 


we" 


Tr 











(6.27) 


adódik, ahol el a w vektor euklideszi normáját jelöli. Az optimális hipersík a síkhoz legközelebbi 
tanítópontok távolságának maximumát biztosítja. 


6.3. ábra - A margó geometriai értelmezése. 





X. 
Pesáli ü 
; optimalis 
E adli hipersik 





X 


Az egységnyi távolságúra skálázott feladatban a határoló felülethez legközelebb eső pontokra elx1 71 vagy 


síx,)--!] Ekkor a szeparáló hipersíkhoz legközelebb eső, különböző osztályba tartozó bemeneti vektorok 
közötti, a síkra merőlegesen mért távolság 


a SD ED 1 A. 2 
ja KN át KERN áll EN a ERR aa 


Az optimális hipersik által biztosított margó tehát: 
























































. (6.28) 
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l 


w7 





pzs 
2 











. (6.29) 


huj 
Az egyenlet szerint az osztályozási tartalék akkor lesz maximális, ha el minimális értékű. 


A megoldandó feladat ezek után a következőképpen fogalmazható meg: adott egy lineárisan szeparálható 
mintapont készlet 


5 - (Cs. dexter) (6.30) 


és keressük azt a minimális normájú w" vektort és azt a b" skalár értéket, melyekkel a tanítópontok mindegyikét 
helyesen osztályozzuk, vagyis keressük a 


w - arg min(w "w) (6.31) 


megoldását, azzal a feltételellel, hogy 


d éw" x, 1 b 21 i—-], 2, ....F : (6.32) 


A feladatot tehát feltételes szélsőérték-keresési problémaként tudjuk megfogalmazni, ahol a feltételek 
egyenlőtlenségek formájában vannak megadva. A feltételes szélsőérték-keresési feladat megoldását egy 
Lagrange kritérium (Id. Függelék) megoldásával kereshetjük: 


1 F 
LÍw, boa) —ww—- sa d(w"x,4Hj-l 
2 2 1 (6.33) 
ahol az "17" együtthatók a Lagrange multiplikátorok. Az optimalizálási feladatnak ezt a felírását elsődleges 
alaknak (primal problem) nevezzük. 


A optimalizálási feladat megoldásához a Karush-Kuhn-Tucker (KKT) elmélet (Id. Függelék) szerint a fenti 
Lagrange kritériumot kell minimalizálni W és § szerint és maximalizálni ": szerint, vagyis a Lagrange 
kritérium által definiált kritérrumfelület nyeregpontját (saddle point) kell meghatározni. A megoldás két 


lépesben érhető el: 
e először w és b szerinti szélsőértéket keresünk a megfelelő deriváltak számításával, 


e majd ezek eredményét behelyettesítve a Lagrange kritériumba kapjuk az ún. másodlagos feladatot (dual 
problem), melynek megoldásai az "! Lagrange multiplikátorok. 


Az tív.b.a) Lagrange kritérium Y és ? szerinti parciális deriválásából az optimumra az alábbi két feltételt 
kapjuk: 


szal hakttéll zű sas 
öw d, (6.34) 
al Íw, bar] sül 
——— — -Ü Ad, 7 Ü 
ab 2 m,20 (6.35) 


Látható, hogy ha a Lagrange multiplikárokat ismerjük, a feladatot megoldottuk, hiszen W csak az " Lagrange 
multiplikátoroktól és a tanítópont-értékektől függ. 


A feltételes optimalizálási feladat megoldásához felírható annak duális alakja, melyben már csak az ": Lagrange 
multiplikátorok az ismeretlenek. Mivel az 


Í- F B F F 
LÍw 9al-—ww—ucs adwox- ho med ts a 
[ J e. 2. 1 1 i 2 1. 2 f. (6.36) 


kifejtésében a harmadik tag (1.35) alapján nulla, és mivel (6.34) alapján 
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F FR PF 
w" wz dodw" x, z deemed ix, 
Tul Tal fal (6.37) 


LÍw, bej z [4 


az 4) duális optimalizálási feladat az alábbi: 


F 1.§F 
Ori Ha - aaa BANT 


sa (6.38) 
a 
ő cd, 7 Ű 
2 (6.39) 
és a 


a,zÜ :17-],....F (6.40) 


feltételekkel. 


A duális probléma egy olyan, a keresett ": értékekben másodfokú szélsőérték-keresési feladat, mely mellett a 
megoldásnak egy egyenlőség, (6.39) és egy egyenlőtlenség, (6.40) típusú mellékfeltételt 15 ki kell elégítenie. Az 
ilyen típusú optimalizálási feladatok kvadratikus programozással (guadratic programming, OP) oldhatók meg. 


Az optimumhoz tartozó Lagrange multiplikátorok — az 2, értékek — ismeretében, felhasználva az optimális 
súlyvektorra vonatkozó (6.34) összefüggést, a lineáris kétosztályos osztályozó szupport vektor gép válasza 
felírható, mint 


FÜXI — ien] Dzatdatx b] 
ses . (6.41) 


Vegyük észre, hogy a válasz összefüggésében a bemeneti mintavektorok nem közvetlenül, hanem egy skalár 
szorzat részeként szerepelnek, tehát a (1.11) összefüggéshez hasonlóan itt 15 kernel megoldást kaptunk. A 


megoldás érdekessége, hogy az ük nagyrésze általában 0, így mind a súlyvektor kifejezésében, mind a 


szupport vektor gép válaszában a tanítópontoknak csak egy része — a P tanítópontból csak P, — vesz részt. 


Azokat a tanítópontokat, amelyek résztvesznek a megoldás kialakításában, amelyekhez tartozó Lagrange 
multiplikátorok értéke nem nulla, szupport vektoroknak (support vectors) nevezzük." A szupport vektor gépek 
tehát olyan kernel gépek, ahol a kernel tér tényleges dimenziója nem a tanítópontok számával (P), hanem a 
szupport vektorok számával (P,) egyezik meg. Ez jelentős egyszerűsítést jelenthet a válasz számításában, 
különösen, ha P,cxP. A szupport vektor gépeknek ezt a tulajdonságát ritkasági (sparseness) tulajdonságnak 
nevezzük. 


Azt 15 észrevehetjük, hogy azon tanitópontokra, ahol A teljesül a 
dnb] (6.42) 


összefüggés, vagyis ezek a tanitópontok — tehát a szupport vektorok — lesznek az elválasztó hipersikhoz 
legközelebb lévő mintapontok. Itt w" már az optimális Lagrange együtthatókkal meghatározható súlyvektor: 


w - S atdix, 
tal , (6.43) 


A szupport vektoroknál (6.42) alapján a (6.24) és a (6.25) egyenlőtlenségek egyenlőségként állnak fenn. Az 


optimális eltolásérték (bias) (9) a dlwx.t59-1 egyenletből számítható, ahol :: egy szupport vektor. 


3.1.1. A maximális margójú lineáris szeparálás általánosítóképessége 


: Úgy is mondhatjuk, hogy ezek a mintapontok , tartják" a megoldást, ezért ezek a mintapontok a tartó vektorok vagy támasztó vektorok 
(support vectors). A tartó vektor elnevezés azonban a magyar nyelvű szakirodalomban egyelőre nem terjedt el, ezért a könyvben a szupport 
vektor elnevezést használjuk. 
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Az előzőekben láttuk, hogy egy tanuló rendszer létrehozásánál a konstrukciós lépések meghatározásán túl fontos 
kérdés, hogy a létrehozott rendszert minősíteni 1s tudjuk. A 3. fejezetben részletesebben tárgyaltuk a minősítés 
lehetőségeit és bemutattuk, hogy a minősítéshez valójában az ún. valódi kockázat meghatározására lenne 
szükség. Azt 15 láttuk, hogy a valódi kockázatot — a mintapont-eloszlás ismeretének hiányában — nem tudjuk 
meghatározni. A statisztikus tanuláselmélet azonban megadja azokat a feltételeket, melyek fennállta esetén a 
valódi kockázatnak legalább egy felső korlátja megadható. 


A (2.31) összefüggés osztályozási feladatra adott felső korlátot. A felső korlát két tagból állt: egyrészt a 
tanítópontokban meghatározható eredő hibából, a tapasztalati kockázatból, és egy ún. konfidencia tagból, ami a 
megoldás komplexitásától függ. A statisztikus tanuláselmélet a komplexitás mértékeként a VC-dimenziót 
használja. Ha tehát egy megoldás VC-dimenziójára tudunk mondani valamit, a valódi kockázat egy felső 
korlátja megadható. A felső korlát (2.31) összefüggése alapján azt 15 láttuk, hogy olyan megoldásra van 
szükségünk, amely egyidejűleg mindkét tagot minimalizálja, tehát a tapasztalati hibát úgy próbálja minél 
kisebbre leszorítani, hogy közben a VC-dimenzió értéke 15 minél kisebb legyen. A megoldás elve a strukturális 
kockázat minimalizálás (SRM) elv volt. A strukturális kockázat minimalizálás elve szerint azt a legkevésbé 
komplex megoldást keressük, melynél a két tag összege minimumot ad. 


A lineáris osztályozó szupport vektor gépnél, azon túl, hogy a tanítópontok hibátlan osztályozását kívánjuk 
elérni, még azt 15 célnak tekintjük, hogy a szeparálás maximális biztonsággal, maximális margó mellett történjen 
meg. A maximális margójú megoldás a lineáris szeparálások között kitüntetett. A maximális margó biztosítása 
mellett ugyanis a megoldás komplexitásának mértékére, a VC-dimenzióra 15 adható egy felső korlát, és ennek 
segítségével a lineáris szupport vektor gép általánosítóképességéről 15 tudunk állítani valamit. 


A statisztikus tanuláselmélet eredményei szerint [ Vap95], [Vap98] a 
wő"x, FH -0 (6.44) 


által megadott optimális szeparáló hipersík VC-dimenziójára az alábbi felső korlát adható: 


hz mile] rja 
: (6.45) 


ahol N a bemeneti tér dimenziója, r a szeparációs tartalék, a margó, F pedig az összes bemeneti vektort 


tartalmazó legkisebb átmérőjű gömb sugara. Az összefüggésben a I-] művelet azt a legkisebb egészet jelöli, ami 
nagyobb vagy egyenlő, mint a művelet argumentuma. 


Bár egy függvényosztály VC-dimenzióját általános esetben nehéz meghatározni, N-dimenziós szeparáló hipersíik 
esetén könnyen megmutatható, hogy a VC-dimenzió értéke h-N-1. Ha azonban nemcsak a mintapontok lineáris 
szeparálását végezzük, hanem maximális margójú lineáris szeparálást biztosítunk, már a (6.45) összefüggéssel 
megadott felső korlát érvényes. Ez az összefüggés azt mondja, hogy maximális margójú szeparáló hipersik 
mellett — ha az r margó értéke elegendően nagy — a VC-dimenzió értéke lehet (N-1-1)-nél kisebb 15. Ennek 
különösen nemlineáris esetben van jelentősége, ahogy ezt a későbbiekben látni fogjuk. Az a tény, hogy egy felső 


8 Mg 


függetlenül kontrol alatt tartható a szeparálás tartalékának megfelelő megválasztásával. 


A tartalék (6.29) összefüggése szerint a margó fordítottan arányos a súlyvektor normájával. A (6.33) Lagrange 
kritérium olyan optimalizálási feladatot fogalmaz meg, ahol a tanítópontok megfelelő osztályozásán túl a 
súlyvektor normanégyzetének minimumát 1s biztosítani szeretnénk. A szupport vektor gépeknél az osztályozási 
hiba minimuma mellett a maximális tartalék, vagyis a minimális VC-dimenzió elérésére törekszünk, 
összhangban a strukturális kockázat minimalizálási elvvel. A szupport vektor gépekre ezért a statisztikus 
tanuláselméletnek a 2. fejezetben összefoglalt eredményei alkalmazhatók. Ez lényeges különbség, ha a szupport 
vektor gépeket az előzőekben bemutatott ún. klasszikus hálókkal, de elsősorban a többrétegű perceptronnal 
hasonlítjuk össze. 


Az MLP hálózatoknál a komplexitás a rejtett réteg méretétől függ. A háló struktúrájának rögzítése a rejtett réteg 
méretét 15 meghatározza. A tanítás során ezen már nem változtatunk. Ezzel szemben a szupport vektor gépeknél 
nem a szabad paraméterek száma határozza meg a komplexitás mértékét, hanem a VC-dimenzió, melynek felső 
korlátja a maximális margó értékével befolyásolható. A kétféle megközelítés közötti alapvető különbség tehát, 
hogy míg az MLP-nél csak a tapasztalati hiba, addig a szupport vektor gépeknél mind a tapasztalati hiba, mind 
az általánosítóképeséget befolyásoló komplexitásmérték, a VC-dimenzió minimalizálása megtörténik. 
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3.2. A lineárisan nem szeparálható feladat lineáris megoldása 


Az előzőekben tárgyalt maximális margójú lineáris szeparálásra képes megoldás az alapelvek bemutatására 
alkalmas. A gyakorlatban azonban ritkán találkozunk olyan feladatokkal, melyek úgy szeparálhatók lineárisan, 
hogy még osztályozási tartalék is biztosítható. Általában vagy csak olyan lineáris szeparálás lehetséges, ahol a 
két osztály között csak nagyon kis biztonsági sáv alakítható ki, vagy lineáris szeparálás hibamentesen nem 15 
lehetséges. A kis biztonsági sávot növelhetnénk, ha nem ragaszkodnánk ahhoz, hogy minden tanítópont a sávon 
kívül helyezkedjen el. Ha a pontok többsége a sávon kívül lesz, de néhány mintapontnál megengedjük, hogy a 
sávon belülre kerüljenek (sőt esetleg azt 15 megengedjük, hogy egyes mintapontok az elválasztó hipersíik , rossz" 
oldalára kerüljenek), akkor ezen az áron a sáv mérete esetleg jelentősen növelhető. A következőkben olyan 
lineáris megoldást mutatunk be, ahol megfelelő kompromisszum alapján dől el a biztonsági sáv mérete és a 
hibás osztályozás valószínűsége. 


Ha megengedjük, hogy a biztonsági sávban 15 legyenek tanítópontok, miközben továbbra is cél a lehető 
legnagyobb margó biztosítása, ún. lágy vagy szoft margójú megoldásról beszélünk. Azoknál a pontoknál, 
amelyek a biztonsági sávon belül helyezkednek el a maximális margójú osztályozást biztosító 


d (w"x, tözl (6.46) 


egyenlőtlenség nem áll fenn. Az ilyen mintapontokra vonatkozó, az előző egyenlőtlenségnek megfelelő formális 
kapcsolat ún. gyengítő (slack) ő változók bevezetésével lehetséges. A gyengítő változók bevezetése lehetővé 
teszi, hogy a (6.46) összefüggés az egyes tanítópontoknál különböző mértékben gyengítve érvényesüljön. Ennek 
megfelelően az összes pontra most a következő egyenlőtlenség írható fel: 


d, Őr "x, pH z1- ÉG 1—1 2. . 8 BET sú (6.47) 


0-é £1 


Azon tanítópontoknál, ahol kisz, visszakapjuk az alapfeladatot. Ha , az adott tanítópont a hipersíik 


megfelelő oldalán, de a biztonsági sávban vagy a sávhatáron helyezkedik el, ha pedig 57! az adott tanítópont a 
sík ellenkező oldalán (a hibás oldalon) van. Ezt illusztrálja a 6.4 ábra. 


6.4. ábra - A gyengítő változók használata: (a) a mintapont osztályozása helyes, de a 
mintapont a biztonsági sávba esik, (b) a mintapont osztályozása hibás. 





(aj (b) 


Az optimális hipersíkot úgy kell meghatározni, hogy a hibás osztályozások száma minimális legyen, miközben 
továbbra 15 törekszünk a lehető legnagyobb margó elérésére. A minimalizálandó kifejezés — amit a 
továbbiakban J(w)-vel jelölünk — ennek megfelelően két tagból áll: 


1 F 
JGW] - —ww ree 
2 2 , (6.48) 


ahol C a két tag közötti kompromisszumot beállító együttható. Ha C—0, visszakapjuk az előző, gyengítő változó 
nélküli esetet. Ha C értéke kicsi, a minimalizálandó összefüggésben a második tag súlya kicsi, vagyis nem 
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nagyon büntetjük, ha egy tanítópont a margón belülre, netán a rossz oldalra kerül. Ez azt jelenti, hogy a 
biztonsági sáv szélesebb lehet, de több pont kerül a sávon belülre vagy a rossz oldalra. Ha C értékét növeljük, 
ezeket az eseteket jobban büntetjük, ami keskenyebb biztonsági sávot eredményez, hiszen ekkor nyilván 
kevesebb pont eshet a sávon belülre. 


A megoldás most 1s a megfelelő Lagrange kritérium felírását igényli, hiszen itt 15 feltételes szélsőérték-keresési 
feladattal állunk szemben. Egyfelől (6.48) minimumát kívánjuk elérni, de közben a (6.47) által a tanítópontokra 
megfogalmazott egyenlőtlenségeket is teljesíteni kívánjuk. Ennek megfelelően a következő Lagrange 
kritériumot tudjuk felírni. 


LÍw éwy.Bl z 


1 F F sál 
Blgélássi CSE sz 2 a tdjéw "x,tH-1ré) - sé, 
2 Ja] Za tal 


(6.49) 


A kritérium a (6.47) által a tanítópontokra megfogalmazott gyengített feltételek figyelembevételén kívül egy új 
taggal 15 bővült. Az utolsó tag — amely szintén egy Lagrange multiplikátoros tag — azt fejezi ki, hogy törekszünk 


arra, hogy a ": értékek lehetőleg nullák, de legalábbis minél kisebbek legyenek. Itt 5 -k a megfelelő Lagrange 
multiplikátorok. A módosított Lagrange kritériumot w, b és !-k szerint minimalizálni, míg ":-k és ".-k szerint 


maximalizálni kell. A feladatot most 15 két lépésben oldhatjuk meg. Először a Lagrange kritérium w , b és 5 
szerinti deriváltját írjuk fel. 


ELEME éj w - Dada 
Éhy im] , (6.50) 
FESSÉTET gs ásó 
TI z (6.51) 
ESA] ja ntazC 
7 . (6.52) 


Ezt követően a gradiensek értékének nullává tételével kapott összefüggéseket behelyettesítve a Lagrange 
kritériumba kapjuk a (6.38) összefüggéssel megegyező duális feladatot: 


F FR PF 
ela] - EK - Ce tes ák ég 
- 4 i 


: , (6.53) 
ahol 
jen Dem 20, i-1,2,....PF 
2 , (6.54) 


és melyből az ":-k most is kvadratikus programozással határozhatók meg. Figyeljük meg, hogy a gyengítő 
változók bevezetése az optimalizálási feladat duális alakját csak a Lagrange multiplikátorokra vonatkozó 
feltételekben módosítja. Az osztályozó eredménye 15 megegyezik a lineárisan szeparálható feladatra 


megadottakkal (6.41). Ennek megfelelően itt is lesznek nulla értékű ": -k, melyekhez tartozó tanítópontok nem 
vesznek részt a kimenet előállításában. Ha pedig " ja 


melyekre a 


, a megfelelő tanítópontok szupport vektorok lesznek, 


do(w"x, 11 Ea -Űű (6.55) 


egyenlőség áll fenn. Ez azt jelenti, hogy most a szupport vektorok sem feltétlenül a margó határán helyezkednek 
el. A margóhoz viszonyított helyzetüket a ": értékek befolyásolják. 


A (6.48) minimalizálandó kritériumban szereplő £ konstanst hiperparaméternek is szokás nevezni. Szerepe — 


ahogy az előbb említettük — az, hogy a súlyvektor hosszának, illetve a tanító mintákra számított osztályozási 
hibának a viszonyát beállítsa. C meghatározása nem könnyű feladat, általában kereszt kiértékeléssel történhet. 


3.2.1. A szoft margójú lineáris szeparálás általánosító képessége 
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A gyengítő változó bevezetése azt eredményezte, hogy az összes pont már nem esik a biztonsági sávon kívülre. 
Ennek a megoldás általánosítóképességére is lesz hatása. A VC-dimenzió (6.45) összefüggése a szoft margójú 
megoldásra már nem lesz érvényes, így nem lesz érvényes a valódi kockázat felső korlátját megadó (2.31) 
összefüggés sem. Azonban a lágy margójú megoldás általánosítási hibájára 15 származtattak felső korlátokat, 
melyek figyelembe veszik a gyengítő változók értékeit 15. Ezek bemutatásával ítt nem foglalkozunk. A 
származtatás és az eredmények az irodalomban [Cri100], [Sha02] megtalálhatók. 


3.3. Nemlineáris szeparálás 


A valós osztályozási feladatok túlnyomó része nem szeparálható lineárisan. A lineárisan nem szeparálható 


feladatoknál — ahogy ezt már többször láttuk — egy megfelelő (és általában dimenziónövelő) §7"92 
nemlineáris transzformációval lineárisan szeparálhatóvá alakítjuk a feladatot, Az SVM előnyeinek 
kihasználására az így kapott jellemzőtérben az előzőeknek megfelelő optimális (maximális margójú) megoldást 
keressük. 


A nemlineárisan szeparálható feladat SVM-el történő megoldásában tehát két lépés szerepel: 
e nemlineáris transzformáció a bemeneti térből a jellemzőtérbe, 
e a jellemző térben az optimális lineáris szeparáló hipersík meghatározása. 


Ez utóbbi lépést azonban Itt sem a jellemzőtérben, hanem az ebből származtatott kernel térben oldjuk meg. 


A nemlineáris megoldás a lineáris eset megoldásából egyszerűen az Ki helyettesítéssel nyerhető. Az 
optimális hipersíkot a következő alakban keressük: 


hig "alxir b -Űű (6.56) 


Ennek alapján a korábbi lineárisan szeparálható esetre kapott eredményünknek megfelelően az optimális 
súlyvektor: 


w - 1 a dl x) 
z i , (6.57) 


ahol 9ízJ az " mintához tartozó jellemző (feature) vektor. Az optimális eltolásérték (bias) (8 ) a 


wTa(xYirbt — Jat - -I pill x, 


vagy a Y 96 egyenletből számítható, aho egy-egy megfelelő osztályba 
tartozó szupport vektor. A jellemzőtérben megkonstruált szeparáló felületet tehát a következő egyenlet adja 
meg: 


§ ad (xx bb 0 
a i . (6.58) 


Látható, hogy a megoldáshoz most is csak az " Lagrange multiplikátorok meghatározása szükséges, amit a 
(6.38) összefüggésnek megfelelő duális feladat kvadratikus programozással történő megoldásával nyerhetünk. A 


különbség mindössze annyi, hogy a duális feladatnál x helyére mindenhol 9" kell kerüljön. Ha a 
jellemzőtérben maximális margójú megoldás kapható, akkor a Lagrange multiplikátorokra az 15 a, feltétel, ha 
csak a gyengített változat, akkor az 18a,5C feltétel teljesül. 


A WÚJ0G) szorzatot a kernel trükknek megfelelően egy magfüggvényként írjuk fel, azaz 
Elm (xJaG (6.59) 


A nemlineáris osztályozó tehát: 


FŰXI — sign TLKÜL ke] 
za (6.60) 
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alakban adja meg egy x bemenetre a választ. Az összegzés az összes tanx, - 0 ntra vonatkozik, valójában azonban 


csak a szupport vektorokra kell elvégezni, hiszen a többi esetben . A szupport vektor gépek tehát 
nemlineáris esetben 1s ritka (sparse) megoldást eredményeznek. 


A szupport vektor gépes megoldás előnye a kerneles megoldások előnyéhez hasonlóan itt 15 azáltal jelentkezik, 


hogy a feladatot nem a jellemzőtérben oldjuk meg, hanem a kernel térben, azáltal, hogy a "ix nemlineáris 
transzformációt nem közvetlenül, hanem csak a kernel függvényen keresztül, közvetve definiáljuk. 


A 6.5 ábrán a nemlineáris SVM osztályozás illusztrálására gyakran használt kettős spirál feladat egy megoldását 
mutatjuk be. A szeparálandó két osztály két egymásba tekeredő spirál pontjaival van megadva, melyek 
tanítópontokként szerepelnek. A két osztályba tartozó tanítópontokat (-), illetve (o) jelek jelölik az ábrán. A 
feladat tehát olyan elválasztó görbe meghatározása, mely a két spirál pontjait szeparálja. A feladatot, mint 
benchmark problémát gyakran használják osztályozó rendszerek, köztük neuronhálók teljesítőképességének 
összehasonlítására. Ezt az indokolja, hogy bár a feladat nagyon egyszerűnek tűnik, megoldása nem könnyű, pl. 
egy MLP számára különösen nehéz. 


6.1 példa 


Példaként oldjuk meg a XOR problémát szupport vektor géppel. Minthogy a feladat lineárisan nem 
szeparálható, csak a nemlineáris változat használható. Első lépésként meg kell választani a kernel függvényt. A 
feladat viszonylagos egyszerűsége miatt az eddig említett kernel függvények bármelyike használható. Jelen 


Kíx, XI -íxőxirly 


esetben használjunk polinomiális kernelt: . A polinomiális kernel előnye, hogy ebben az 


egyszerű esetben még a jellemzőtérre való leképezést biztosító wa függvények 15 meghatározhatók. A 
jellemzővektorra a következő adódik: 


mr(xi - [], gaz ze ém rzériT (6.61) 


6.5. ábra - A kettős spirál probléma megoldása SVM-el. Az SVM a világos és a 
négyzethálós tartományokat különböztette meg, mint a két osztályba tartozó pontokat. 
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.6 


Ta id! áj 
TT "VER am KÖ TÉK KÖ IRT td HE ha. ad ER "1 II 


"4 HI az 


i HI 
öz H-t 
szi. WB in 
ell HH HAN 1 HI ENEEL NI 
 HFINERNEENAI TM 
INN. JAT ANT TA dIN 
EE Úk VE 


o 


eTTLTTL ÉT 
IN. ő 
MEN. EAT ZEN ENT T8N 
JR I ER JE dl HE EE a all HET 


he) 
B 


FAMI 
HEHk AE B 
KEP EILETE EE [7 

TEN EN I HET ENE EI 


8 -6 -4 a 2 4 6 





Látható, hogy a jellemzőtér egy 6-dimenziós tér (5 dimezió -- az eltolás). Az osztályozási feladat megoldásához 
fel kell írnunk és meg kell oldanunk a duális egyenletet. 


pod 
ela) z érj Héra Per; bér — ss segádék 
éa ra — , (6.62) 


a következő feltételek mellett: 


h 
öd e, -ap—e, tar — a, —Ü, és Nixg, 7-l,4,.... 
11 


,.a 
(6.63) 


A kvadratikus egyenlet felírásánál feltételeztük, hogy a bemenetek és a kimenetek nem bináris, hanem bipoláris 
megadásúak, vagyis a XOR probléma leképezése a következő: 


Tantópont inden [del [ó 


A kvadratikus programozási feladat megoldásához fel kell írni a kernel mátrixot. Mivel a XOR problémánál 
összesen 4 pontunk van, melyek mind tanítópontok, a kernel mátrixra a következő adódik: 
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ME Mm mM I 
Mm mm I 
ÉKE MI Mm 
mt Mm mM 


(6.64) 


A kvadratikus programozás eredményeképpen azt kapjuk, hogy mind a négy a azonos értékű lesz, és mind 


ih 


különbözik nullától: ": . Ez azt jelenti, hogy az összes pont szupport vektor, ami a feladat 
ismeretében nem meglepő. A szupport vektoroknál a háló válasza alapján az eltolásérték 15 meghatározható, ami 
b:"-0-ra adódik. A háló válasza a kernel térben tehát: 


-a ae 178 


F(X) — sign DA2SST A (xT x nye] 
tal (6.65) 


A szupport vektor gépeknél a jellemzőtérbeli reprezentáció és megoldás általában nem határozható meg, és 


nincs is rá szükség. Ebben az egyszerű példában azonban ismerjük a jellemzőtérre való leképezést biztosító 9 
függvényeket, és a Lagrange multiplikátorok ismeretében a w" jellemzőtérbeli súlyvektor 15 meghatározható: 


jössgtesii 0 a is2 0 or 
Ea (6.66) 


Ennek ismeretében a megoldás a jellemzőtérben 15 megkapható. A döntési függvény: 
2(x)—x1x2. (6.67) 


Arra az érdekes eredményre jutottunk, hogy bár a választott kernel által meghatározott nemlineáris 
transzformáció hatdimenziós jellemzőteret definiál, a döntés egyetlen dimenzió alapján meghozható, melyet a 
két bementi komponens szorzata határoz meg. Ez egyben arra 15 példa, hogy előfordulhat olyan eset, amikor a 
, dimenziónövelő" nemlineáris transzformáció valójában kisebb dimenziójú térbe képez le, mert a lineáris 
szeparálás ott is lehetséges. Ez természetesen általánosan nem igaz, de feladattól függően, ha megfelelő 
nemlineáris transzformációt választunk, előfordulhat. A nemlineáris SVM a jellemzőtérben biztosítja a 


maximális margót, ami Itt 2 re adódik. 


3.4. Szupport vektor gépek regressziós feladatra 


A szupport vektor gépek az osztályozási feladatokon túl regressziós feladatokra 15 alkalmazhatók. A regressziós 
vagy függvényapproximációs feladatok esetén azonban nem definiálható az osztályozásnál értelmezett margó, 
azaz az osztályozási tartalék fogalma. Ennek megfelelően szükség van a regressziós feladat egy olyan 
értelmezésére, felírására, ami lehetővé teszi az SVM kiegészítő feltételének felhasználását. 


Hasonlóan az osztályozónál bemutatottakhoz itt í5 lehetőség lenne először a lineáris esetet, majd annak 
nemlineáris kiterjesztését tárgyalni, de a tömörebb tárgyalás kedvéért itt közvetlenül a nemlineáris (azaz a 
jellemzőtérben lineáris) regressziót mutatjuk be. 


Az osztályozós és a regressziós feladatok között a kapcsolat viszonylag könnyen megteremthető, ha a 
függvényapproximációs feladatoknál az átlagos négyzetes hiba helyett egy ún. €-érzéketlenségi sávval 
rendelkező abszolútérték hibafüggvényt (e-insensitive loss function) alkalmazunk az eltérés mérésére. 


f §i Ü ha d-g(xilk e 
eli d— (x)]- fej egyébként (6.68) 


Az € érzéketlenségű veszteségfüggvény felhasználásával tulajdonképpen az osztályozási esethez nagyon hasonló 
probléma áll elő. Azokra a mintákra, melyek az érzéketlenségi sávon belül esnek, a hiba értéke 0, míg a kívül 
eső pontok hibáját büntetjük. Ez megfeleltethető egy olyan osztályozási feladatnak, ahol a helyes osztályozás 
hibája 0, míg biztonsági sávba eső vagy a rosszul osztályozott pontokat pedig gyengítő ( ? ) változók 
bevezetésével büntetjük. Ennek megfelelően az alábbiakban bemutatott regressziós megoldást a lineárisan nem 
szeparálható osztályozási feladatra kapott eredményekkel célszerű összevetni. Hibafüggvényként az 
abszolútérték-függvény használatát az 15 indokolja, hogy ekkor a megoldás az esetlegesen jelen lévő kilógó 
adatokra (outlier) kevésbé lesz érzékeny, mint a gyakran alkalmazott négyzetes hibafüggvénynél. Ennek 
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ellenére szokás e-érzéketlenségi sávú négyzetes hibafüggvényt 15 alkalmazni. Jelen tárgyalásnál azonban 
megmaradunk a Vapnik féle alapmegoldásnál, ahol az abszolútérték-függvény szerepel. 


6.6. ábra - Az 86-érzéketlenségi sávval rendelkező abszolútérték hibafüggvény és 
alkalmazása. 





(a) (b) 


Írjuk fel a háló kimenetét. Ez most is nemlineáris bázisfüggvények lineáris kombinációjaként áll elő, azaz a 


9(x) ek által reprezentált (M-dimenziós) jellemzőtérben lineáris megoldást keresünk: 


ui 
y(íxi- 5 wear (x1tb-w"al[xirb 
5)- Emez sb ae hb a geyesn] 


mlx)- [dd (a.a has Vga ka (6.69) 


A kielégítendő feltételek (a gyengítő változók bevezetésével) a következők: 
do-Éw paix té etÉ, 


(w" ele) rbj-d£ erői 
ő 20, 


s:20. (6.70) 


A minimalizálandó költségfüggvény: 


1 F 
TÍW, Ét "] kö Fát w re[ Fe 160) 
ús (6.71) 


a (6.70) egyenlőtlenségek által megfogalmazott mellékfeltételekkel (17 1.--.F ): 
A megfelelő Lagrange kritérium az $rőrfeF::" Lagrange multiplikátorok felhasználásával: 
F 1 8 
Líw hé éa atyy - 62 A ré) Va w 
ző [w "alx1tb-gy, ső] 
1] 


-N a Pi —w mix] hete " Mlné tér] 
1] [ ] tal (6.72) 
A Lagrange függvényt kell w, b és a 5 és § gyengítő vektorváltozók szerint minimalizálni, " " , valamint " és 


T szerint maximalizálni. Elvégezve a deriválást, és a deriváltak értékét nullává téve, a következő 
összefüggéseket kapjuk: 
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W — Ha [ar 7 ax] pi x,) 
1] 
H-L—- üt, 
n-C- e (6.73) 


Behelyettesítve ezeket a Lagrange függvénybe jutunk a duális feladatra: 


Ole) - da a)-e 7 lato) 


la - a (aa) br x,) 


dal 4 


kal E 


(6.74) 


TET i NN (6.75) 


[a 8 


megkötésekkel. Az eredmény a kvadratikus programozással meghatározható ":! Lagrange multiplikátorok, a 


kiszámított £ ésa FÍS5) kernel függvény alapján: 


P(x — 5 [az, 7 aA Íx, x] 15 
tai (6.76) 


Csakúgy, mint az osztályozási esetben, az SVM modell most 15 ritka, ugyanis csak azok a tanítópontok vesznek 


részt a kimenet előállításában, melyekre l-es 70 Fontos megjegyezni, hogy most 1s a kernel függvényből 


indulunk ki, így a jellemzőtér bázisfüggvényeit a kernel függvény implicit módon definiálja. Ez a jellemzőtér 
azonban nagyon nagy dimenziós, akár végtelen dimenziós 1s lehet, ezért míg lineáris esetben a probléma az 
eredeti térben 15 megoldható, nemlineáris esetben a jellemzőtérben már nem minden esetben lehetséges a 
megoldás. 


Figyeljük meg, hogy a regressziós megoldásnál az SVM kialakításában az osztályozós esethez képest eggyel 
bővül a hiperparaméterek száma, hiszen az e érzéketlenségi paraméter megadására 15 szükség van. Az € 
hiperparaméternek az approximációra gyakorolt hatása zajmentes tanítópontok esetén szemléletesen is 
értelmezhető (6.7 ábra). 


6.7. ábra - Az £-érzéketlenségi sáv szerepe a függvényapproximációban (a) £—0,05 , (b) 
2—0,15. A vastagabb folytonos vonal a háló válaszát, a szaggatott vonalak az e 
szélességű sáv széleit mutatják. A vékonyabb folytonos vonal az approximálandó 
függvényt a rajta lévő tanítópontokkal (kisebb pontok) mutatja. A nagyobb fekete 
pontok a szupport vektorok 
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te ábrán látható, hogy ha a megoldás köré egy e szélességű sávot húzunk úgy, hogy az SVM válaszfüggvényét 

-nal eltoljuk, akkor minden tanítópont ezen a sávon belül helyezkedik el. A sávhatárra eső pontok lesznek a 
szupport vektorok (az ábrán a nagyobb fekete pontok). Az ábra azt 15 mutatja, hogy kisebb szélességű sáv több, 
a nagyobb szélességű pedig kevesebb szupport vektort eredményez. Ezt úgy biztosítja az SVM, hogy minél 
nagyobb e értéke, annál simább megoldást kapunk. Ezt a hatást illusztrálja a 6.8 ábra 15. Ezen az álten 15 
szerepel egy e szélességű sáv, ami azonban most az approximálandó függvényt veszi közre, és annak — -nal 
történő eltolásával kapható. Az SVM zajmentes esetben mindig olyan megoldást ad, amely ebbe az e szélességű 
sávba belefér, miközben a válasz a lehető legsimább. Látható, hogy a szélesebb sáv simább, a keskenyebb 
kevésbé sima megoldást eredményez. 


Fentiek alapján e hatása zajmentes esetben jól követhető, és ennek alapján a megfelelő e érték megválasztható, 
hiszen minél kisebb ez az érzéketlenségi sáv, annál pontosabban próbálja a modell a tanítópontokra illeszteni a 
megoldást. A valós feladatokban azonban szinte mindig zajos bemenetekkel van dolgunk. 


6.8. ábra - Az  8e-érzéketlenségi sáv hatása a válasz  simaságára 
függvényapproximációban (a) e€-0,05, (b) £—-0,15. A vastagabb folytonos vonal a háló 
válaszát, a szaggatott vonalak az ez szélességű sáv széleit mutatják. A vékonyabb 
folytonos vonal az approximálandó függvényt a rajta lévő tanítópontokkal mutatja. A 
nagyobb fekete pontok a szupport vektorok. 















































(a) (b) 


Ebben az esetben a kis e arra késztetné a modellt, hogy minden pontot jól (kis hibával) közelítsen, ami 
túltanuláshoz vezethet, holott a cél itt éppen egy simább függvény illesztése lenne. Nagyobb zaj esetén tehát 
célszerű nagyobb e-t, szélesebb érzéketlenségi sávot használni. Zajos tanítópontok mellett e hatására a 6.9 ábra 
mutat példát. 


Az SVM minél simább válasza annak a következménye, hogy a súlyvektor normáját minimalizáljuk. A 


költségfüggvényben szereplő w w tag osztályozós esetben a maximális margóért, regressziós esetben pedig a 
sima és minél laposabb megoldásért felelős. 


6.9. ábra - A sinc(x) regressziója zajos adatok alapján. (Gauss kernel; c—n; C-10, 
2—0,15. A Gauss zaj szórása (a) c,—0,01, (b) c,—0,04. 


163 
XMLmind XSL-FO Conrverter 


Kernel módszerek 


















































(a) (b) 


A megoldás hibája, valamint komplexitása közötti kompromisszumot regressziós esetben 1s a C paraméter állítja 
be, azaz az e és a C hiperparaméterek értékét összehangoltan kell megválasztani. Általánosságban is 
elmondható, hogy a szupport vektor gépek hiperparamétereinek (az e, a C, valamint a kernel függvény 
paramétereinek — Gauss kernel esetén a "7 szélességparaméternek) a megválasztása igen összetett feladat, mert 
az egyes paraméterek nem függetlenek egymástól, így a lehetséges beállítások terében kell egy jó, esetleg 
optimális kombinációt megtalálni. A kernel paraméterek hatása — ha Gauss kernelt választunk — hasonló a Gauss 
bázisfüggvényes RBF hálók szélességparaméterének hatásához: a nagy 7 simább, míg a kis 5 változékonyabb 
(erősen lokalizált) közelítést eredményez, ami hatással van például a megfelelő C értékre 15. C értékét az előbbi 
esetben kisebb, míg az utóbbi esetben várhatóan nagyobbra kell megválasztani. A hiperparaméterek megfelelő 
megválasztásával számos irodalom pl. [Sch02], [Cha02], [IKwo03] foglalkozik. 


3.4.1. Az SVM működése 


Láttuk, hogy a nemlineáris problémák lineáris kezelésének kulcsa, hogy az eredeti feladatot egy olyan 
többdimenziós térbe transzformáljuk, ahol az már lineárisan megoldható. A kernel gépek mindezt a kernel 
térben tudják megoldani. A szupport vektor gépek ezt kiegészítik azzal, hogy a lineáris megoldás 
kiszámításához olyan módszert adnak, ami alapján a lehetséges megoldások közül a legjobb számítható kt. 


A működés mechanizmusának jobb megértéséhez a kernel tér alábbi jellemzőit hangsúlyozzuk: 
e A kernel tér a jellemzőtér, illetve az ehhez tartozó leképezés konkrét ismerete nélkül 1s elérhető. 
e A kernel tér véges dimenziójú. 


e A kernel függvény és a kernel középpontok (szupport vektorok) ismeretében minden bemeneti vektor 
leképezhető a kernel térbe. 


A probléma a kernel térben már lineáris, így ítt az SVM-nek megfelelő optimális hipersíkot kell meghatározni. 
Ez osztályozás esetén megfelel a kernel térbe leképezett két ponthalmazt (a jellemző térben) maximális 
margóval elválasztó hipersíknak, regresszió esetén pedig a kernel térbeli pontokra illesztett hipersíknak. A 


tanítási lépés során tehát a hipersíkot leíró egyenlet szabad paramétereit, az "" Lagrange multiplikátorokat és b-t 
kell meghatározni. 


6.10. ábra - A kernel térbeli lineáris megoldás illusztrációja két szupport vektor és 
egydimenziós kimenet esetén. A fekete pontok a tanító mintákat illusztrálják, míg a 
fehér pont egy kiszámítandó kimenetet illusztrál. 
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kimenet 


.A(R, xo) 





K(x, xi) 


Amennyiben a szupport vektorok száma M, a kernel tér (M--1) dimenziós, ahol M koordinátát a Klzexj] kernel 


leképezéssel számítunk ki, míg a további egy dimenzió a kimenetnek felel meg. A keresett hipersik a leképezett 
tanítópontok és a hozzájuk tartozó kimenet közötti összerendelést definiálja. A működés szemléltetéséhez 
tekintsük a regressziós esetet. A megtanított SVM működését a 6.10 ábra szemlélteti. 


Az SVM modell eredményét leíró 


FÉXI — 9(e W a) KÍx, x, 148 
El (6.77) 
egyenlet alapján a működés a következő. A vizsgált x bemeneti vektort leképezzük a kernel térbe. Ez a szupport 


vektoroknak megfelelő számú Elxx) 
pont a leképezéssel kapott pozícióban. 


kernel érték kiszámítását jelenti. Az eredmény a hipersik által definiált 


A regressziós feladat megoldása során az SVM által konstruált optimális hipersik — amennyire lehetséges — jó 
választ ad a tanító pontokra, azaz illeszkedik rájuk. A modell akkor működik megfelelően, ha nemcsak a 
tanítópontok esetében, hanem később a teszteléshez használt pontok esetén 1s a hipersíkra esik a kimenet, vagy 
másképpen a hipersíik értéke jól közelíti a valós kimenet értéket. 


3.5. Az SVM neurális értelmezése 


Bár a gyakorlatban a szupport vektor gépeket ritkán alkalmazzák neurális hálózat alakjában, ez az értelmezés 
hasznos, mert egyszerűbb tárgyalásmódot tesz lehetővé a pusztán matematikai megközelítésnél. 


A szupport vektor gépek tanítása, és használata 15 megfelelő számítások sorozata, ahol a válasz számításának 
összefüggése pontosan megfeleltethető egy egy-rejtett-rétegű neurális hálózatnak. A rejtett réteg tipikusan 
nemlineáris neuronokat tartalmaz. A 6.11 ábra egy szupport vektor gépnek megfeleltethető neurális hálózatot 
mutat be. 


6.11. ábra - A szupport vektor gépnek megfeleltethető neurális hálózat 
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kernel függvények kimeneti réteg 
A bemenet egy N-dimenziós vektor. A nemlineáris kernel függvényeket a rejtett réteg neuronjai tartalmazzák. 
Ezen neuronok száma megegyezik a szupport vektorok számával (P,). A hálózat válasza (" ) a rejtett réteg 
neuronjai kimenetének súlyozott összege. A súlyokat a tanítás során kiszámított Lagrange multiplikátor értékek 


(7) határozzák meg. Ennek megfelelően, minél kisebb a hálózat, annál kevesebb számításra van szükség a 
válasz megadásához, így a cél a lehető legkisebb hálózat elérése. 


Láthatóan a kernel gép neurális interpretációja egy struktúrájában a bázisfüggvényes hálózatokkal gyakorlatilag 
tökéletesen megegyező háló. Ez azonban csak formai hasonlóság, a kétféle megközelítés közötti lényeges 
különbséget nem szabad szem elől téveszteni. 


3.6. Az SVM hatékonyabb megvalósításai 


A szupport vektor gépek gyakorlati felhasználásának egyik legnagyobb akadálya az SVM tanításához szükséges 
kvadratikus programozás nagy algoritmikus komplexitása, valamint a kernel mátrix nagy mérete. Az 
alábbiakban olyan módszereket mutatunk be röviden, melyek a számítás gyorsítását, valamint a szükséges 
memória méretének csökkentését célozzák. Ezt a feladatot kétféleképpen oldhatjuk meg. Ezek: 


e az eredeti felírás megoldásához szükséges számítások (a kvadratikus programozás) felgyorsítása, valamint 
ezek kisebb tárterületen történő megoldása, 


e az eredeti felírás módosítása úgy, hogy könnyebben megoldható legyen, s így gyorsabb algoritmussal hasonló 
tulajdonságú megoldásra vezessen. Itt olyan módosításról beszélünk, ami az eredeti SVM optimumot adja, 
tehát a feladatot nem, csak annak matematikai felírását változtatja. (A későbbiekben olyan SVM változatok 
bemutatására 15 sor kerül, ahol azonos elméleti háttér mellet már egy másik probléma (optimum) kerül 
kiszámításra. ) 


3.6.1. A OP hatékonyabb megoldása 


A tanítási sebesség növeléséhez az SVM tanításban használt kvadratikus programozási lépést kell gyorsabban 
(és kevesebb memória felhasználásával) végrehajtani. Erre számos hatékony OP megoldó áll rendelkezésre. 
Ezek iteratív eljárások, amelyek az eredeti optimalizálási feladatot kisebb részfeladatok sorozataként oldják 
meg. A részfeladatok kiválasztásának alapját az optimalizálási feladat KKT (Karush-Kuhn-Tucker) feltételei 
jelentik. Azok a minták, amelyek teljesítik az optimumra vonatkozó KKI feltételeket, nem vesznek részt az 
optimalizálásban, míg a feltételeket megszegő pontok igen. A KKT feltételek osztályozós esetre az alábbiak "?- 
ré: 
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e, s Ü z dp(xizi 
ú-za zt c dplxJ-l 
ÜL, — Lé — d FÉx sz] (6.78) 


Egy mintapont akkor és csak akkor lehet optimum pontja (6.53)-nak, ha teljesülnek a KKT feltételek és a kernel 
mátrix pozitív semidefinit. 


A szupport vektor gépekhez használt három legfontosabb, azonos alapelvek szerint működő, egymást 
továbbfejlesztő gyorsítási algoritmus [Sch99]: 

e Szeletetés - A szeletelési (chunking) eljárás [Vap79] alapja, hogy a nulla ": -khöz tartozó minták nem 
befolyásolják a megoldást. Először a minták egy részhalmazán oldjuk meg a OP-t, majd az adott 
alproblémából mindig a szupport vektorokat tartjuk meg. Ezekhez azt az M tanítómintát veszünk hozzá, 
amelyek a leginkább megszegik a KKT -feltételeket, majd újra megoldjuk a kvadratikus optimalizálást. Ha M- 
nél kevesebb minta szegi meg a feltételeket, akkor mindet beillesztjük a következő alfeladatba. Az iteráció 
végére az összes nem nulla multiplikátort meghatározzuk, így az eredeti feladatot 15 megoldottuk. A kezelt 
alprobléma nagysága az iterációk során általában nő. A chunking nem jól használható, ha nagyon sok a 


tanítópont vagy sok a nem nulla 7: , hiszen ebben az esetben még mindig nagy a memóriaigény. 


e Osuna algoritmusa - Az előzőhöz hasonló módszer Edgar Osuna dekompozíciós módszere [0s5u99], amely 
mindig egy állandó méretű részhalmazon dolgozik, miközben a többi változót rögzített értéken tartja. A 
kvadratikus programozást így mindig egy rögzített méretü munkahalmazon oldja meg, és kisebb 
optimalizálási feladatok sorozatán keresztül Jut el a teljes megoldásig. 


e SMO -A Seguential Minimal Optimization (SMO) olyan dekompozíciós eljárás [Pla99], amely során 
iterációnként mindössze két " változó optimalizálása történik meg. Előnye, hogy teljesen kikerüli a OP 
számítást, mert a két változó analitikusan 15 optimalizálható. Két változó analitikus optimalizálása után a 


következő két ": kiválasztására kerül sor, amely heurisztikusan történik. 


mutat az ábra, ahol a legfelső a kezdőlépés. A vízszintes vonalak minden esetben a tanító készletet 
reprezentálják, a megvastagított fekete szakaszok pedig az adott iterációs lépésben optimalizált Lagrange 
multiplikátorokat jelzik. 


6.12. ábra - A legelterjedtebben használt OP megoldók , szeletelési" (dekomponálási) 
stratégiái. 


Chunking 


Osuna 


aMO 
3.6.2. Az SVM módosítása 


Az SVM módosított verziói közül a hatékonyság és a memóriaigény szempontjából Olvi Mangasarian és 
munkatársainak a munkái a legfontosabbak. 
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3.6.2.1. SSVM 


Az SSVM (Smooth Support Vector Machine) [LeeOla] az eredeti feladatot egy olyan optimalizálási feladatra 
fogalmazza át, ami egyszerű gradiens módszerekkel megoldható. Az így kapott kvadratikus hibafelület 
minimuma (itt már nincsenek feltételek, mint az eredeti OP-ben) megfelel az SVM által megoldott kvadratikus 
programozási feladat minimumának. 


3.6.2.2. RSVM 


Az RSVM (Reduced Support Vector Machine) [Lee0lb] valójában az SSVM egy kiterjesztése, ahol az összes 
mintapontnak csak egy részhalmazából kerülhetnek ki szupport vektorok. Az eljárás ezzel valójában tovább 
redukálja a megoldandó feladat méretét, hiszen az eredeti kvadratikus kernel mátrix helyett egy kisebb mátrixot 
kell csak előállítani. Ennek a kulcsa, hogy ellentétben a kvadratikus programozással, ami csak kvadratikus 
mátrixra futtatható, a gradiens módszerekkel már egy ilyen egyenletrendszer 15 megoldható. 


4. SVM változatok 


A szupport vektor gépek alkalmazásának legjelentősebb akadálya a nagy memória- és számítási komplexitás. 
Mint láttuk, ennek oka, hogy az SVM tanítása során egy nagy számításigényű kvadratikus programozási 
feladatot kell megoldani. Az előzőekben röviden összefoglalt néhány hatékony eljárás vagy a kvadratikus 
programozás gyors megvalósításával, vagy az SVM optimalizálási feladatának módosításával ér célt. Ezek a 
megoldások azonban mind az eredeti feladat megoldását keresik. 


A probléma egy másik lehetséges megközelítése, ha az optimalizálási feladatot módosítjuk, az SVM elméleti 
hátterének, valamit előnyeinek lehetőség szerinti megtartása mellett. Ekkor azonban már nem az eredeti SVM 
feladat megoldására törekszünk. A biztonsági sáv maximalizálása, a duális felírás és a kernel trükk alkalmazása 
jelentik a módszer azon magját, amelyet meghagyva a számítási feladat átfogalmazásával az eredeti módszerhez 
hasonló kernel gépeket kaphatunk. Az SVM változatokkal szembeni fő elvárás, hogy egyszerűsítsék a szükséges 
számításokat, mindemellett megtartsák az eredeti eljárás Jó tulajdonságait, mind a jó általánosítóképességet, 
mind a kapott megoldás ritkaságát (sparseness). 


Az egyik legelterjedtebb ilyen módosítás a négyzetes hibára optimalizált szupport vektor gép, az LS-SVM 
(Least Sguares Support Vector Machine) [Suy00], [Suy02]. Ez a megoldás az SVM-től eltérően a klasszikus 
neuronhálóknál szokásos négyzetes hibafüggvénnyel dolgozik, továbbá a kielégítendő feltételeket egyenlőségek 
formájában fogalmazza meg. Ennek köszönhetően a megoldás egy lineáris egyenletrendszer eredményeként áll 
elő, anelynek megoldása lényegesen egyszerűbb, mint a kvadratikus programozási feladaté. 


Az SVM változatok közül először a legelterjedtebb LS-SVM-et mutatjuk be, ami megfelel a statisztikából 
ismert ridge regressziónak, amelyet később szintén bemutatunk röviden. A legkisebb négyzetes hiba 
alkalmazásából adódóan az eredeti LS-SVM és a ridge regresszió elveszíti a ritkasági tulajdonságot. Megfelelő 
módosítássokkal, kiterjesztésekkel azonban itt ís elérhető, hogy ritka megoldást kapjunk. A ritka megoldásra 
vezető egyik lehetséges kiterjesztés az LS7-SVM. Ennek tárgyalását a redukált rangú kernel ridge regresszió 
(reduced rank kernel ridge regression, RRKRR) bemutatása követi, ami más megközelítést alkalmazva, de 
ugyancsak ritka megoldást biztosít. 


4.1. Az LS-SVM 


A Johan Suykens által kidolgozott LS-SVM [Suy02] a hagyományos szupport vektor gépek olyan módosítása, 
ami az idő- és erőforrás-igényes kvadratikus programozással szemben, egy lineáris egyenletrendszer 
megoldására vezet. 


Mivel az LS-SVM a hagyományos SVM módosítása, a kiinduló ötletek, illetve összefüggések hasonlóak, ezért a 
továbbiakban elsősorban az alapváltozattól való eltérések bemutatására törekszünk. A fő különbség a két 
módszer között az €-érzéketlenségi sávval rendelkező költségfüggvény négyzetes függvényre való lecserélése, 
valamint, hogy az SVM mellékfeltételeit megfogalmazó egyenlőtlenségeket egyenlőségekre cseréljük. 


Az LS-SVM tárgyalásánál csak a legáltalánosabb nemlineáris változatot származtatjuk. 


4.1.1. Az LS-SVM osztályozó 
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F 
Az osztályozási feladat 4 e (0.1) iegszokott: adott egy (xs dia tanítópont-halmaz, ahol § jú l egy N-dimenziós 


bemeneti vektor, illetve az ehhez tartozó kívánt kimenet. A cél egy olyan modell létrehozása, ami jól 
reprezentálja a tanítópontok által leírt kapcsolatot. 


Az osztályozó esetében az optimalizálási feladat az alábbit: 


F 
min Jűw, B, ei - gy Fk Bs 
ii. 7 21" (6.79) 


a 
ed, [w "px, to] 5dt] Ma I JRYBBÉS zs (6.80) 


mellékfeltételekkel. A fenti képletben a négyzetes hibát megadó e; értékek a négyzetes költségfüggvényből 


adódó hibaértékek. Szerepük az SVM-ben bevezetett 5. gyengítő változóknak felel meg. Látható, hogy a 
feltételekben az SVM osztályozóhoz képest (lásd (6.24) összefüggés) az egyenlőtlenség helyett egyenlőség 


szerepel, valamint hogy a célfüggvényben a hiba négyzete (e: ) jelenik meg. 


Az osztályozó most 15 a szokásos bázisfüggvényes alakban írható fel: 


FÉR) — sign[w "mp [jo] (6.81) 


ahol a 9(2:E7 GE" leképezés az SVM-ben is használt nemlineáris leképezés egy magasabb, M-dimenziós 
jellemzőtérbe. 


A fenti egyenletekből az alábbi Lagrange kritérium írható fel: 


Lé, beat) — Jé, be) - Da [do v7o(x)r0]-1 a] (6.82) 
1] " 


ahol az ": értékek a Lagrange multiplikátorok, amelyek az egyenlőségi feltételek miatt itt pozitív és negatív 
értékeket 1s felvehetnek. 


Az optimumra vonatkozó feltételek az alábbiak. 


ar a 
tea a —ow - a adani xi 
al 

F 
Sz sk S sű 
da 1-1 
a ga — e, sé e, i-],...,F 
ag, 
at 
7 s a(w"elx4rb]-14e -0 i-1,..,P 
e, (6.83) 


A fenti egyenletekből egy lineáris egyenletrendszer írható fel, mely az alábbi kompakt formában 15 megadható: 


F milk , (6.84) 


ahol: 


d" - [do ...,do] 
V — [i,...,1] 
u" - [1.62 étp] 


a, zddoplx] paix) - dd Kixx) ss7l.P (6.85) 
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a 
és I egy megfelelő mére az ű égmátrix. Látható, hogy az egyenletrendszer első sora a A — feltételt írja le, 
dm 


4. 


míg a további sorok ay e, Itételből adódó egyenleteket írják le, behelyettesítve a (6.83)-ban megadott 
derivált számításokból  -reés  -re származtatott összefüggéseket. 


Az osztályozó válasza — hasonlóan a hagyományos SVM-hez - a következő alakban írható fel: 


FÜXI — 7 ad Alx,x 148 
e . (6.86) 


Az 8: súlyok és a b eltolásérték (bias) a fenti egyenletrendszerből számíthatók. Az eredmény jellemzője, hogy a 
megoldásban az összes tanítópont szerepel, tehát mind szupport vektor, azaz az egyenlőség használata miatt 
nincsenek nulla súlytényezők. Ezzel elveszítjük az SVM ritkasági tulajdonságát, nevezetesen, hogy a bemeneti 


vektoroknak csak egy kis része lesz szupport vektor. Az ": súlyok nagyság szerinti sorba rendezéséből látszik, 
hogy melyek a fontosabb, illetve melyek a kevésbé fontos bemeneti vektorok. Ezen alapul a később bemutatásra 
kerülő komplexitás redukciós metszési (pruning) eljárás, ami az SVM ritkasági tulajdonságát adja vissza. 


A 6.13 ábrán a szupport vektor gépek összehasonlításánál gyakran alkalmazott kettős spirál probléma LS-SVM- 


mel történő megoldását mutatjuk. Jól látható, hogy ennél az erősen nemlineáris feladatnál az LS-SVM — 
hasonlóan az SVM-hez — nagyon Jól teljesít. 


6.13. ábra - A kettős spirál probléma megoldása LS-SVM-el. 


a 
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4.1.2. Az LS-SVM regresszió 
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Az LS-SVM — hasonlóan az eddig látott hálózatokh f(x) AZ osztályozós feladaton túl Tél d )S esetre IS 


alkalmazható. Ekkor x, e R" 1gieknek megfelelően egy függ"a, e R :özelítése a cél adott tanítópont- 


halmaz alapján, ahol egy N-dimenziós bemeneti vektor és a kívánt kimenet. 


A regresszió esetén az optimálási feladat az alábbit: 


F 
min Jűwv, 5, el - Cap Fk EE 
vs 3 212 (6.87) 


a 
do-wpixitbte ahol 171... F (6.88) 

feltételekkel. 

A regresszió válasza a következő alakban írható fel: 


FÜXI — wa [xb , (6.89) 


ahol a 99:ESSE" nemlineáris transzformáció most is a jellemzőtérbe való leképezést biztosítja. Az 
osztályozós esthez hasonlóan ttt 15 felírhatunk egy Lagrange függvényt: 


Líw,ö ei - Jűv, B, el zt íw "a(x1tb-ábe, -d,i 
il , (6.90) 


ahol az "" értékek a Lagrange multiplikátorok. Az optimumra vonatkozó feltételek az alábbiak. 


at d 
emi d Gw - al] 
1al 

F 
S — HK3 -ű 
aa 1-1 
a ga —k sé e, i-],...,F 
de, 
al 
— —-Ü w nix, )-tbte-d -0 151... F 
önt, (6.91) 


A W ésaz € kifejezése után a következő lineáris egyenletrendszer írható fel: 


h a ferle I la (6.92) 


ahol az § kivételével az egyenletrendszerben szereplő többi jelölés megegyezik a (6.85)-ben megadottakkal. Az 
st mátrix (ij)-edik eleme : 


hd güx,) püx,) - K(x,x d , EHE lgega (6.93) 


Az eredmény — hasonlóan a hagyományos SVM-hez - a következő alakban írható fel: 


FÍXI 1 c E(x,x 148 
z , (6.94) 


ahol az ": -k és ? a fenti lineáris egyenletrendszer megoldásai. 


Az egyenletrendszer felírása a parciális deriváltakból az osztályozós esetnél bemutatottak szerint történik. A 
regressziós esetben azonban az eredmény kiszámítása ((6.94) összefüggés) és az egyenletrendszer sorai között 
egyértelműen látszik a kapcsolat, nevezetesen, hogy az egyenletrendszer sorai a regularizációt ( £ 1) leszámítva 
pontosan megfelelnek az eredmény kiszámítására szolgáló összefüggésnek. Ez nem meglepő, hiszen a 
tanítópontok által reprezentált feltételek gyakorlatilag azt fogalmazzák meg, hogy az adott bemenetre milyen 
kimenetet várunk a modelltől. Ez a működés jól követhető a 6.10 ábrán. A tanítás során bevezetett regularizáció 
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pedig megadja, hogy mennyire (mekkora hibával) kell illeszkedni a tanítópontokban. Az erősebb regularizáló 
hatás pontatlanabb illeszkedést követel és simább (egyszerűbb) megoldást, simább válaszfüggvényt 
eredményez. 


A 6.14 ábrán egy egyszerű példát mutatunk be LS-SVM használatával megoldott regressziós feladatra. Látható, 
hogy még jelentősebb mértékben zajos tanítópontok mellett 15 Jó megoldást kapunk. 


6.14. ábra - A zajos sinc(x) LS-SVM modellje (Gauss kernel; 6—r;€-19; A Gauss zaj 
szórása (a) 7.795 (b) 5.799). Az összes tanítópont szupport vektor. 


1.2 j EE. 





(a) (b) 
4.1.3. Ritka LS-SVM 


A Least-Sguares megoldás egyik hátránya, hogy a megoldás nem ritka (sparse), hiszen mint láttuk, minden 
tanító vektor szupport vektor 15 egyben. Ha a végeredményt neurális hálózatként értelmezzük, akkor ebben P 
(azaz a felhasznált tanítópontok számával megegyező számú) nemlineáris neuron található, így az eredmény 
komplexitása (a háló mérete) nagyobb, mint a hagyományos SVM-mel nyert hálózatoké, melyek valóban 
szelektálnak a bementek közül. Ez abból is látszik, hogy a megoldásban felhasználjuk az 7" 6 egyenletet, 
ami mutatja, hogy a i-edik tanítópontban kapott hiba arányos a tanítóponthoz, mint szupport vektorhoz tartozó 
ju A 


: súllyal. Figyeljük meg, hogy a négyzetes hibafüggvény alkalmazása miatt az 7" sáv hiányában gyakorlatilag 
nincs 0 hibaérték, így nincs -" érték sem. Ahhoz, hogy a hagyományos SVM ritkasági tulajdonságát 


visszanyerjük további lépésekre van szükség. 


Intuitíven állíthatjuk, hogy a kisebb 7: -k kevésbé járulnak hozzá a megoldáshoz, azaz a kialakított modellhez. A 
következő , pruning" (metszés1) eljárás egy ezen alapuló iteratív módszer, mellyel az LS-SVM alkalmazásánál 15 
elérhető egy egyszerűbb eredmény, azaz kisebb hálózat. A megoldás menete az alábbi: 


e Tanítsuk a hálózatot az összes rendelkezésre álló (P) tanítóponttal. 


e Távolítsuk el egy kisebb részét (pl. 5970—át) a pontoknak úgy, hogy azokat hagyjuk el, melyekhez a legkisebb 


E].k tartoznak. 
e  Tanítsuk újra az LS-SVM-et a kisebb tanítókészlettel. 


e Folytassuk a 2. lépéstől, amíg a válasz minősége nem romlik. Ha a teljesítmény romlik, akkor a 
hiperparaméterek (£ és Gauss kernel esetén a 7 ) hangolásával esetleg korrigálhatjuk, illetve még tovább 
csökkenthetjük a megoldás méretét. 


A negyedik pontban említett hiperparaméter hangolásának oka Jól látható például egy Gauss kerneles hálózat 
esetén. Ha a metszési (pruning) eljárás eredményeképpen csökken a kernelek száma, akkor az egymástól 
távolabb eső középpontok miatt gyakran növelni kell a Gauss függvények szélességét ( " ). 
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Fontos megjegyezni, hogy a metszési eljárás során, a minták elhagyásával gyakorlatilag a tanítókészlet méretét 
redukáljuk, ami — főként jelentősebb redukció esetén — információvesztéssel és így a háló minőségének 
romlásával jár(hat). Ez egyértelmű különbség a Vapnik-féle SVM-hez képest, hiszen ott a ritka megoldást úgy 
nyertük, hogy közben a Lagrange multiplikátorok meghatározásában az összes tanítópont részt vett. Ennek a 
kedvezőtlen hatásnak egyfajta mérséklését, vagy kiküszöbölését oldja meg a későbbiekben bemutatásra kerülő 
LS7-SVM. A mintapontok redukciójának hatását illusztrálja a 1.15 ábra. Az ábrán az üres négyzetek képviselik 
az Összes tanítópontot, az árnyékolt négyzetek pedig a redukált mintakészlet pontjait. 


A 6.16 ábrasorozat az eljárás valós példán történő futtatásának eredményét mutatja. Az (a) ábrán az eredeti LS- 
SVM megoldása látható. A további ábrák az egyre nagyobb mértékű redukció eredményét mutatják: a (b), (c) és 
(d) ábrákon egyre több pontot hagytunk el az eredeti tanítókészletből, miközben az approximáció minősége 
jelentősen nem változott. 


6.15. ábra - A metszési eljárás, azaz a tanító minták elhagyásának hatása a feladat 
méretére valamint az approximáció eredményére. 





4.1.4. Súlyozott LS-SVM 


A négyzetes hibafüggvény a nem normál eloszlású zaj (például kilógó minták, ,outlier"-ek) esetén nem 
optimális, ezért ilyen tanítómintáknál a modellt egy további módosítással hangolhatjuk. A módszer, hasonlóan a 
, pruning"-hoz az 9" 676 összefüggésen alapul. Ez az összefüggés azt mutatja, hogy az egyes pontokban kapott 
hiba, e; arányos az eredményként kapott a; súlyokkal. A módosított eljárás célja, hogy az egyes mintapontok 
szerepét a szerint mérlegelje, hogy ott mekkora a hiba. Ha e; nagy, akkor az ehhez tartozó mintapont kevésbé 
megbízható, tehát a teljes eljárásban a szerepét célszerű csökkenteni, míg a pontosabb mintapontok szerepét, 
ahol e; kisebb, érdemes növelni. Ezt a hatást egy újonnan bevezetett "" súlykészlettel érjük el. Az 
optimalizálandó egyenlet (a regressziós esetre felírva) ekkor a következőképpen módosul: 


. l lő. a 
min Jíw, b, ej — 7 ls 10 v e; 


Zima. (6.95) 
A tanítópontokra vonatkozó feltételek nem változnak: 
d wa Íx) tb-4e , fals, (6.96) 


A lineáris egyenletrendszerben ez a következőket jelenti: 
h Í Et Hi 
I aav lle] [d (6.97) 


173 
XMLmind XSL-FO Conrverter 


Kernel módszerek 


ahol a "r az alábbi diagonál mátrix: 


§ l l 
v-se[2-2] a 





ag: 
ÖT . . § 
A " súlyokat az C értékek alapján választhatjuk meg, például a következők szerint: 


l ha B ésl£ Ci 
V, 227 leő] ha a £ [a ssl éc; 
Égi 
107 egyébként (6.99) 


ahol ci, cz és s megválasztása a statisztikában ismert módszerek alapján történhet [5uy02]. 


Az algoritmus menete a következő: 


e Tanítsuk a hálózatot súlyozás nélkül az összes rendelkezésre álló (P) tanítóponttal és határozzuk meg az e; 
értékeket. 


e Határozzuk meg a v; súlyokat az előzőek ((6.99) összefüggés) szerint. 
e Számítsunk ki egy súlyozott LS-SVM modellt a v; súlyok segítségével. 


Ez az eljárás iteratívan ismételhető, de a gyakorlatban egy súlyozó lépés általában elegendő. 


6.16. ábra - A metszési eljárás folyamatának négy állapota egy zajos sinc(x) megoldása 
során (RBF kenel; 5 -"r 56-10 ; a zaj szórása: 7-7"). A mintapontok közül végül (d) 22-t 


tartunk meg (nagy fekete pontok). 
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4.2. Az LS-SVM hatékonyabb megoldása 


Az LS-SVM tanításának komplexitása jóval kisebb, mint a hagyományos SVM tanításé, hiszen a OP helyett Itt 
, csak" egy lineáris egyenletrendszert kell megoldani. Az LS-SVM használatának azonban vannak hátrányai is, 
mint pl. a ritkaság elvesztése. Mindemellett még az LS-SVM esetén 1s felmerül a hatékonyabb megoldás iránti 
igény, hisz a gyakorlati felhasználásokban még ez a módszer ií5 túl számítás- és memóriaigényesnek 
bizonyulhat. Itt a fő probléma a kernel mátrix méretének csökkentése, ami így természetesen gyakran 
összekapcsolódik az LS-SVM egyéb hátrányinak a kiküszöbölésével. 


4.2.1. A számítás gyorsítása 


A tanítási sebesség növelésére, valamint a  memóriaigények csökkentésére az LS-SVM lineáris 
egyenletrendszerét kell gyorsabban, kisebb memóriában megoldani. Erre Johan Suykens a Heistens-Stiefel 
konjugált gradiens módszert javasolja [Suy02]. Ez a lineáris egyenletrendszer egy iteratív megoldása, ami ez 
eredeti LS-SVM felírásnak megfelelő egyenletrendszer eredményére vezet. 


Más lehetőség a ritka megoldás és a hatékonyság növelésének együttes alkalmazása, ami az LS-SVM 
módosítását jelenti. Ennek eléréséhez például a következőkben bemutatásra kerülő LS7-SVM-et vagy az LS- 
SVM-mel lényegében ekvivalens ridge regresszió egy redukált változatát, a csökkentett rangú kernel ridge 
regressziót alkalmazhatjuk. 


4.3. LS2-SVM 


Az LS7-SVM fő célja egy ritka LS-SVM megoldás elérése, csökkentve a modell komplexitását, azaz a rejtett 
rétegbeli nemlineáris neuronok számát. A módszer két fontos lépést tartalmaz: 


e Az első lépés átalakítja az LS-SVM megoldást úgy, hogy az a tanítópontoknak csak egy részhalmazát 
használja , szupport vektornak". Ennek következtében egy túlhatározott egyenletrendszert kapunk, melynek 


LS megoldása adja az eredményt. 


e A második lépés a "szupport vektorok" (a kernel függvényeket meghatározó vektorok) automatikus 
meghatározására ad eljárást. 


4.3.1. Túlhatározott egyenletrendszer 


Az új megközelítés kundulópontja az LS-SVM lineáris egyenletrendszere. Ha a tanító készlet P mintapontot 


1 
tartalmaz, akkor az egyenletrendszer " t ismeretlent, az 8 -kat és a b-t, " t egyenletet és kő együtthatót 


tartalmaz. Az együtthatók a Klzezj] dj-l..,P kernel függvény értékek. A mintapontok száma tehát 
meghatározza az egyenletrendszer méretét, ami egyúttal a megoldás komplexitását, a hálózat méretét 1s 
megszabja. Hogy ritka megoldást, azaz egy kisebb modellt kapjunk, az egyenletrendszert, illetve az 
együtthatómátrix méretét redukálni kell. 
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Vizsgáljuk meg közelebbről az LS-SVM regressziós problémát leíró egyenletrendszert és jelentését. Az első sor 
jelentése: 


F 


, b 
- (6.100) 
míg a j-edik sor a 


brgKlx,,m]t... ba, [Elxox 40 [Eta KÍR Xg) 7 d, (6 101) 


feltételt, megkötést tartalmazza. 


Az egyenletrendszer redukálásánál sorokat, illetve oszlopokat hagyhatunk el. 


e Ha a j-edik oszlopot hagyjuk el, akkor az ennek megfelelő Klx,x) kernel szintén "eltűnik", így az 
eredményként megkapott hálózat mérete csökken. Az első sor által támasztott feltétel azonban automatikusan 


alkalmazkodik, hisz a megmaradó ":-k összege 0 marad. 


e Ha a j-edik sort töröljük, akkor az edd] tanítópontnak megfelelő információ elvész, hiszen a j-edik 
megkötést elveszítjük. 


A fentiek alapján az egyenletrendszert leíró mátrix legfontosabb része a [816 1] részmátrix, ahol § az összes 


lehetséges tanítóvektor kombinációját tartalmazza fő FA ). A mátrix redukálása során abból sorokat, 


oszlopokat, illetve mindkettőt (sort a hozzá tartozó oszloppal) törölhetünk. 


Minden oszlop egy neuronnak felel meg, míg a sorok bemenet-kimenet relációkat, azaz a megoldás által 
teljesítendő feltételeket fogalmaznak meg. A mátrix az alábbi két módon redukálható: 


e Hagyományos teljes redukció 


Az bed] tanítópontot teljesen elhagyjuk, azaz mind a hozzá tartozó sort, mind pedig az oszlopot töröljük. Az 
alábbi egyenlet a tanító minták teljes elhagyásának hatását mutatja. A törölt elemeket szürkével jelöltük. 





(6.102) 


A hagyományos metszési (pruning) technika esetében pontosan ez történik, hisz a metszési algoritmus iteratívan 
kihagyja a tanítópontok egy részét. Az elhagyott tanítópontok által hordozott információ ezért teljesen elvész. A 
tanítópontok által hordozott információ megőrzése a részleges redukció mellett lehetséges. 
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e Részleges redukció 


A edd] tanító mintát csak részben hagyjuk el, úgy, hogy töröljük a ponthoz tartozó oszlopot, de megtartjuk a 
hozzá tartozó sort. Így a tanítóminta által hordozott megkötés továbbra 15 érvényben marad, hisz az adott sor 


súlyozott összegének amennyire csak lehet egyezni kell a 4, kívánt kimenettel . 


Ha kiválasztunk 4 ( M-F ) "Sszupport vektort" (oszlopot), de megtartjuk az összes megkötést (sort), az 
egyenletrendszer túlhatározottá válik. A részleges redukció hatását a mutatja a következő összefüggés, ahol a 
szürkével jelölt részeket távolítjuk el. 





b 0 
ót. d 
(a — e 
Tt! o 0 0 p 7 
sérp-ni 6 sé(p-ijp ús: ú p 
. . . l 


(6.103) 


A fentiek alapján kapott túlhatározott ( 54 méretű) egyenletrendszert legkisebb négyzetes hiba értelemben 
oldhatjuk meg. Egyszerűsítsük a jelöléseinket úgy, hogy a fenti egyenletrendszer mátrix alakja legyen: 


Au-v (6.104) 


melynek legkisebb négyzetes hibájú megoldása: 


1-(ATA] A (6.105) 


Az oszlopok törlése a sorok megtartása mellet biztosítja, hogy a kernelek (neuronok) száma csökkenjen, 
miközben az eljárás az összes ismert megkötést (tanítómintát) figyelembe veszi. Ez a kulcsa annak, hogy a 
modell komplexitása a pontosság megtartása mellett 15 csökkenthető legyen. 


Látható, hogy a kernel mátrix redukciója során az oszlopok elhagyásával a regularizálás , aszimmetrikussá" 
válik, hiszen a továbbiakban nem minden sorban szerepel regularizáció. Ennek kiküszöbölésére megtehető, 
hogy a regularizációt már csak a kernel térbeli megoldás során használjuk, ami a kernel térbeli margó 


maximalizálásnak ( le] minimalizálásának) felel meg. Ez hasonló az SV megoldások nemlineáris 
kiterjesztéséhez, ahol a w súlyvektor minimalizálása valójában a jellemző térben történik. A kernel térben 
regularizált megoldás: 

(AT ÁrOCTTu— ÁTv (6.106) 

ahol 


KöxyXl ss o Á(x.Xg] 


új — 


ÁÁ - 





ü a 
8] LES s KCxeX] (6.107) 


A módosított, részlegesen redukált egyenletrendszert legkisebb négyzetes hibájú (least-sguares) értelemben 
oldjuk meg, ezért nevezzük ezt a módszert Least Sguares LS-SVM-nek vagy röviden LS7-SVM-nek [ Val04]. 
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Az Itt bemutatott részleges redukció hasonlít a hagyományos SVM kiterjesztéseként bevezetett redukált 
szupport vektor gép (Reduced Support Vector Machine — RSVM) alapelvéhez [Lee0lb]. Az RSVM esetén 
azonban, mivel az SVM eleve kisebb (ritka) modellt eredményez, a részleges redukció célja az algoritmikus 
komplexitás csökkentése, míg az LS-SVM esetében elsődlegesen a modell komplexitásának, a hálózat 
méretének csökkentése, azaz a ritka LS-SVM elérése a cél. 


4.3.2. A kiválasztási eljárás 


A fenti részleges redukció alkalmazása esetén szükség van valamilyen módszerre, ami meghatározza a 
szükséges szupport vektorokat. A kernel mátrix oszlopaiból kiválasztható egy lineárisan független részhalmaz, 
melynek elemeiből lineáris kombinációival a többi előállítható. Ez a kernel mátrix , bázisának" 
meghatározásával érhető el, hiszen az oszlopvektorok terének bázisa az a legkisebb vektorkészlet, amellyel a 
feladat megoldható. Ha a bázis meghatározásánál nem követeljük meg, hogy az oszlopvektorok által kifeszített 
tér és a kiválasztott bázisok által kifeszített tér azonos legyen, hanem bizonyos toleranciát 15 megengedünk, 
akkor a tolerancia mértékének meghatározásával egy szabad paramétert kaptunk. Ez a szabad paraméter 
lehetővé teszi, hogy kontroláljuk a bázisvektorok számát (M), hiszen a célunk az, hogy a P darab P-dimenziós 
oszlopvektorból MAP bázisvektort határozzunk meg, ahol M minél kisebb. 


A bázisvektorok száma, ami egyben a szupport vektorok száma 1s, valójában nem függ a mintapontok számától 
(P), csak a probléma nehézségétől, hiszen M a mátrix lineárisan független oszlopainak száma. A gyakorlatban 
ez azt jelenti, hogy ha egy probléma nehézsége M neuront igényel, akkor a tanításhoz felhasznált mintapontok 
számától függetlenül a modell mérete nem növekszik. 


A szupport vektorok kiválasztása az A" mátrix RRE alakra (reduced row echelon form, RREF) hozása során 
részleges pivotolással végrehajtott Gauss-Jordan eliminációval történik [Pre02], [Gol89b] (Id. Függelék). A 
tolerancia figyelembevétele a pivot elem (p) ellenőrzésével lehetséges. Eredetileg a pivotolás lényege, hogy az 
elimináció végrehajtása során szükséges osztásban a lehető legnagyobb elemet használjuk fel a numerikus 
stabilitás érdekében. A kiválasztott pivot elem nagysága azonban információt hordoz arról 15, hogy mennyire 
fontos a hozzá tartozó oszlop a pontos megoldáshoz. Ha £5 (ahol e" a tolerancia paraméter), akkor az adott 
oszlop elhagyható, ellenkező esetben az oszlopnak megfelelő bemenet egy szupport vektor. A módszer azon 
oszlopvektorok listáját adja meg, melyek az £" toleranciaérték értelmében lineárisan függetlenek. 


A megfelelő tolerancia helyes meghatározása hasonló a többi hiperparaméter (C, e, valamint a kernel 
paraméterek) megválasztásához. Egy lehetséges megoldás a kereszt kiértékelés (cross-validation) alkalmazása. 
Minél nagyobb a tolerancia, annál kisebb a hálózat, és annál nagyobb az approximáció hibája. Az e" helyes 
megválasztása egy olyan kompromisszum alapján lehetséges, ahol a pontos approximáció, illetve a modell 
komplexitása áll szemben egymással. 


6.17. ábra - A zajos sinc(x) LS-SVM modellje (RBF kernel;6—r; C—100; 27—0,01; A zaj 
szórása: (a) 7-7" (b) 7.795). Az RREF módszer eredményeképp a megoldás 23 
szupport vektoron alapul. 
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A 6.17 ábra zajos mintapontok mellett mutatja az LS7-SVM eredményét. Fontos hangsúlyozni, hogy nulla 
tolerancia esetén az LS7-SVM és az LS-SVM megoldás azonos, mivel ebben az esetben a kiválasztási módszer a 
mátrix minden oszlopát, azaz az összes tanítómintát megtartja (kivéve, ha a tanítópontok között volt 
redundancia). 


6.18. ábra - Egy kétdimenziós sinc függvény approximációja LS7-SVM-el. A baloldali 
képen az összes (2500) tanítópont, a jobboldalin az LS--SVM eljárással kapott 63 
szupport vektor (fekete pontok) és az approximáció eredménye látható. (Gauss kernel, 
oc—n, C—1000, 27-0,15.) 


- ke ae rt . A a 01" e. 4 
75 CAS Éalnze te sa poz akát 
4 


KT e a 


e. 
d a. ve 
s XA r 
VÁLÓ le KO hg 
s. ke MEZ KN PA 
a sZ a b 





Az alábbiakban az LS7-SVM alkalmazására mutatunk két mintapéldát. A 6.18 ábrán egy kétdimenziós sinc 
függvény LS7-SVM-mel történő approximációja látható. A bal oldali ábra a kunduló tanítópontokat mutatja, a 
jobboldali pedig a megoldást, ahol külön megjelennek az eljárás által meghagyott tanítópontok (szupport 
vektorok) 15. Láthatóan a tanítópontok elenyésző töredéke elég a megfelelően pontos approximáció eléréséhez. 
A 6.19 ábra a klasszikus kettős spirál probléma megoldását adja meg. A módszer hatékonyságnövelő hatása Itt 
1s Jól követhető. 


6.19. ábra - A kettős spirál probléma megoldása LS7-SVM alkalmazásával. A 
mintapontok száma 194, a szupport vektorok száma 119. (Gauss kernel, s—0,5; C-10, 
27-0,9.) 
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4.3.3. Súlyozott LS7-SVM 


Az LS-SVM-nél megmutattuk, hogy egy iteratív eljárással súlyozott megoldás 15 adható, ami zajos esetben, 
főként kilógó minták (outlierek) esetén jelentősen Jobb megoldásra vezet. 


Amennyiben ismert vagy becsülhető a tanító mintákat terhelő zaj mértéke, ezt az információt az LS7-SVM 
esetén 1s fel lehet használni. A mintapontok azonos kezelése helyett ebben az esetben a pontosabb mintákat 
nagyobb, a pontatlan, azaz zajos mintákat kisebb súllyal célszerű figyelembe venni. A hiba súlyozott számítása: 


E: 3 pe a 5 véd -gy 
Eve 72 (6.108) 


A túlhatározott LS7-SVM egyenletrendszer súlyozott megoldása az előbbiekben bevezetett átírást alkalmazva: 


A Váu- A Vv (6.109) 


ahol a V súlyozó mátrix egy diagonálmátrix, amely a főátlóban a " súlyokat tartalmazza. A súlyokat úgy kell 
beállítani, hogy jól tükrözzék az egyes tanítóminták hatását a lineáris illesztésre. A zaj mértéke, illetve a 
súlyozás meghatározható egy előzetes megoldás alapján (vagy a priori információ alapján), de a túlhatározott 
egyenletrendszer megoldására használhatunk olyan statisztikai megoldó módszereket 15, amelyek csökkentik a 
nagyon hibás adatok hatását. Ilyen például a Least Absolute Residuals — LAR, a Bisguare weights vagy a Least 
Trimmed Sguares - (LTS) módszer [Ciz04], [HolI77], [Hub81]. 


4.4. Ridge regresszió 


A fejezet elején egy egyszerű kernel gép származtatásánál láttuk, hogy a négyzetes hiba minimalizálását célzó 
lineáris gép értelmezhető kernel gépként 15. A megoldást a tanítópontok bemeneti vektoraiból képezett mátrix 
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pszeudo-inverze segítségével tudtuk meghatározni (ld. (6.8) összefüggés) A könnyebb követhetőség miatt ezt az 
összefüggést Itt megismételjük. 


W"- KKK (6.110) 


Azt 15 megmutattuk, hogy az így származtatott súlyvektorral kapott háló kernel gépként 1s értelmezhető, ahol a 
választ az alábbi formában 1s felírhatjuk: 


p(8) - ATÉTa - Da (ág) - Da EA) 
ááá ka  METETE, 


Amennyiben az EZ" mátrix rangja nem teljes, vagy bármilyen pl. numerikus instabilitás miatt nem invertálható, 
a következőképp módosított összefüggés alapján nyerhető a megoldás: 


wWw - kldédl HAD d , (6.112) 


ahol I az XX" mátrixnak megfelelő méretű egységmátrix, 4 pedig egy kis pozitív konstans. Ez az összefüggés 
valójában a rosszul kondicionált mátrixok ainvertálásánál alkalmazott regularizációs eljárás, ami a 
matematikában Tyihonov regularizáció néven 1s ismert. Erre az összefüggésre azonban több úton 1s eljuthatunk. 
A fenti megoldás a Tyihonov regularizációtól függetlenül az ún. ridge regresszió (ridge regression) [Hoe70] 
útján 15 származtatható. 


A következőkben röviden bemutatjuk a ridge regresszió származtatását és azt, hogy a ridge regresszió és az LS- 
S VM probléma-megfogalmazása, és így a megoldás 15 lényegében azonos. Mivel ez a tárgyalás főként a neurális 
modellekhez, illetve a szupport vektor gépekhez kapcsolódik, a ridge regressziós eljárásra csak röviden térünk 
ki. A ridge regressziót többnyire eltolásérték (bias) nélkül alkalmazzák, a következőkben itt 15 ezt a változatot 
mutatjuk be. 


4.4.1. Lineáris ridge regresszió 


F 
A korábban bemutatott osztályozási problémának megfelelően itt 1ís az (x.dha tanító mintakészlet alapján 


keressük az 9 -xW Iineáris modellt. A ridge regresszió is a négyzetes hibát minimalizálja, de az LS-SVM- 
hez hasonlóan közben a súlyvektor hosszának minimumát 1s biztosítani szeretné, ami regressziós feladatoknál a 


minél laposabb megoldást biztosítja [SchO2]. Ennek megfelelően a Yv e E" súlyvektort ridge regresszióval a 
következőképpen határozzuk meg. Jelölje J(w) most 15 a minimalizálandó kritériumfüggvényt (az 1/2-es szorzó 
a deriválás utáni eredmény egyszerűsítése miatt szerepel): 


1 1 1 kal Tr 1 
d S szi d — 
(w] z [el E 2. 5 xwi (6.113) 


ar 
A 9w parciális deriválás eredményéből az optimális w az alábbiak szerint számítható: 


. l 
(do— XÖWIX,- CW 
2 C (6.114) 


F Av p 
wz [Ess ezt] pori 
HE / A (6.115) 


Tr ki 
Mátrix alakban felírva (ahol $7Í4 -- 3] a tanítópontok kívánt válaszaiból képezett vektor és X az § 1-1...F 
tanítóminta-bemenetekből, mint sorvektorokból képezett mátrix): 


Xs ] (6.116) 


a megoldás súlyvektor: 
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a -A 
w- [exet] X4-X" [xx zi) d 
e e . (6.117) 


Az 


üt (xx 


-1 
r] d 
§ (6.118) 
jelölés bevezetésével 
w- Ka (6.119) 


így a végeredmény: 


y(Xxx—-x" Ka 5 a xx, 
2 (6.120) 


Vegyük észre, hogy ez a felírás egy kis különbséggel megegyezik a 6.1 részben bevezetett egyszerű kernel gép 
összefüggéseivel. A kis különbség abból adódik, hogy Itt a kunduló kritérriumfüggvény a súlyvektor hosszának 
négyzetét, mint minimalizálandó mennyiséget, 15 tartalmazza. Ennek következménye a w illetve az § vektorok 
összefüggéseiben ((6.117), illetve (6.118) összefüggések) a € 1 regularizációs tag megjelenése. A ridge 
regresszió tehát az egyszerű kernel gép regularizált változata. Azt 15 észrevehetjük, hogy ez az eredmény 
megegyezik az eltolás-érték nélküli lineáris LS-SVM-re kapott összefüggéssel. 


Természetesen a ridge regresszió 1s kiterjeszthető nemlineáris esetre a szokásos "ix transzformáció, és a kernel 
trükk alkalmazásával. 


4.4.2. Nemlineáris kernel ridge regresszió 


A nemlineáris ridge regresszió esetén — csakúgy, mint az SVM vagy az LS-SVM kiterjesztésénél — a lineáris 
regressziós modellt egy magasabb dimenziós térben, a jellemző térben alkalmazzuk, ami a szokásos módon egy 
nemlineáris transzformáció eredménye. 


A 9( leképezés segítségével a lineáris esetben megismert célfüggvény a következőképpen módosul: 


l : ll E 1 
J(w1 - — —Ű 
laser ET 


ahol: 


e, zd,-w"g(x) r-1,.,P (6.122) 


Az LS-SVM regressziónál bemutatott lépéseknek megfelelően az AVE) Lagrange-függvény írható fel az 7 ( 
1-1,...F ) Lagrange együtthatókkal. A deriválások után a kernel trükk alkalmazásával az alábbi megoldás 
nyerhető (mátrix alakban): 


u — (út 4rr 
É , (6.123) 
át, A(X ax] 


ahol az a tanítómintákból képzett kernel mátrix. Látható, hogy a nemlineáris eset itt 15 a kernel 
térben kerül megoldásra. A megoldás ugyanakkor megfelel egy regularizált kernel térbeli megoldásnak. Ez 


1 
annyit tesz, hogy a lel jellemzőtérbeli minimalizálása az kel kernel térbeli minimalizálására vezet. 


A kernel ridge regressziós modell: 


új Sa Ká 
2 , (6.124) 
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ami a regularizációtól eltekintve ismét megegyezik az egyszerű nemlineáris kernel gép válaszával (Id. (6.14) 
összefüggés). 


4.4.3. Csökkentett rangú kernel ridge regresszió 


Az eredeti ridge regressziós megoldásokban a kernel mátrix négyzetes, ami azt jelenti, hogy a modell a tanító 
pontoknak megfelelő számú szupport vektort tartalmaz, azaz nem ritka. A csökkentett rangú kernel ridge 
regresszió (Reduced Rank Kernel Ridge Regression - RRKRR) [Caw02] eljárás a ritka megoldást a kernel mátrix 
redukciójával éri el. Az RRKRR eljárás tehát hasonló célt tűz ki, mint az LS7-SVM, a célhoz azonban más úton 
jut el. 


Az eljárást eltolásérték (bias) alkalmazása mellett mutatjuk be, hogy az eredmény összevethető legyen az LS- 
SVM eredményével. 


A ritka megoldáshoz az approximációban felhasznált kernel függvények — azaz a kernel középpon-toknak 
megfelelő szupport vektorok — számát kell csökkenteni. Az eredeti ridge regresszió (és természetesen az LS- 
SVM 15) olyan kernel mátrixot használ fel, ahol mind az oszlopok, mind a sorok számát a tanítópontok száma 
határozza meg, hiszen minden tanítópont egy kernel középpont — ezek felelnek meg az oszlopoknak — és 
ugyanakkor minden tanítópont a jellemzőtérben egy lineáris egyenletet 15 jelent — ezek felelnek meg a soroknak. 
Az RRKRR eljárás az oszlopok számát redukálja úgy, hogy a tanítópontokból kiválaszt egy részhalmazt — ezek 
fogják képezni a kernel középpontokat —, és megtartja az összes tanítópontot, tehát megtartja a sorok számát. Az 
RRKRR eljárás tehát az LS-SVM-hez hasonlóan részleges redukciót alkalmaz. 


Az oszlopok kiválogatásához az alábbiakból indulhatunk ki. Az LS-SVM (6.83) és (6.91) összefüggései a w 
súlyvektort, mint a 65 jellemzőtérbeli vektorok súlyozott összegét fejezik kt..: 


wz: j ér pl, 
2 (6.125) 


Ez azt jelenti, hogy a súlyvektorok terét a fs! vektorok meghatározzák; mint bázisvektorok kifeszítik a teret. 
Kérdés azonban, hogy az összes mix 7j—1,...,P jellemzőtérbeli vektorra szükség van-e a súlyvektor (adott 


sőt Al BE a 


w súlyvektor felírható az S részhalmazba tartozó jellemzővektorok súlyozott összegeként: 


w- 9 Apis, 
2 . (6.126) 


Ha ez a megadás pontos, akkor az §-be tartozó fs" vektorok is kifeszítik a súlyvektorok terét, tehát bázist 
alkotnak ebben a térben. Ha S§ elemeinek száma kisebb, mint P, eredményként ritka megoldást kapunk. 
Természetesen Itt a 5; súlyok különbözni fognak az (6.125) szerinti megadás a ; súlyaitól. 


Ha az § részhalmazba tartozó jellemzővektorok bázist alkotnak a jellemzőtérben, akkor bármely x bemenet 
jellemzőtérbeli képe is kifejezhető, mint az 5-beli 98) vektorok lineáris kombinációja. 


pixi— 9 ő mix] 
ha . (6.127) 


ult ENE 4 


Ha a bázisvektorok 5 -nek csak közelítő reprezentációját, .:(x) et adják, akkor olyan bázisfüggvényeket kell 
kiválasztanunk, melyek mellett ez a közelítés a legkisebb hibájú. A hibát most mint a két vektor normalizált 
euklideszi távolságát definiálhatjuk: 


, . es e0l 


. kel (6.128) 


Megmutatható [Bau0l], hogy ez a hiba a kernel trükk felhasználásával a kernel mátrix segítségével 15 felírható: 


4 . .(6.129) 
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j 
. NA E. —- XX E —- E . 8 B j 
ahol Éssa K kernel mátrix almátrixa: " 1 1. lk 1 hl jos pedig egy belső szorzatokból képezett 


oszlopvektor, míg k;; — Ki, a kernel mátrix j-edik főátlóbeli eleme. 


A jellemzőtér bázisának meghatározásához az így definiált hiba átlagát kell minimalizálni a tanítókészlet összes 
pontját tekintetbe véve. Vagyis maximalizálni kell a 


ÉGE E ; 


F EFE 
jegyez gy ES 
1-1 ky 


ml. 


(6.130) 


mennyiséget. Az eljárást az üres halmazzal, vagyis $7 £ -val indítjuk, és mohó stratégiát alkalmazunk. Minden 
egyes lépésben azt a tanítóvektort adjuk §-hez, mely a (6.130) kifejezést maximálja. Az eljárás magától leáll, ha 


És: már nem invertálható, jelezve, hogy a megfeleleő bázist megtaláltuk, illetve leállítható, ha a hiba adott 


korlát alá csökken vagy egy előre meghatározott számú bázisvektort már kiválasztottunk. 
Mivel a súlyvektor (6.126) szerint kifejezhető §-be tartozó bázisvektorok lineáris kombinációjaként, a 


következő duális egyenletet kapjuk, melyet P és b szerint kell minimalizálnunk. 


ii TE 
J(.51- — E E 6 KTxx1t—e ge kd, - B KÜx xx) - ny" 
kere 2 les ; (6.131) 


A B és ? szerinti parciális deriváltak alapján megkeresve a minimumhelyeket, valamint ezt C-vel leosztva az 
alábbi egyenletet kapjuk: 


AZ ÁTx ex űthr öld, 
tes A A " (6.132) 
és YrtEHJ-TE 


fi Egész ig ejts E le sz 
2 A Pat 2 ERAT xy [402 AÚ A, 
c jel dal 


as 


5 Md Kix.X) 
ti (6.133) 


rDx(slD 


A fenti egyenletek az alábbi cI8] méretű lineáris egyenletrendszerre vezetnek (B az S halmaz 


elemeinek a száma): 


a Pller szal (6.134) 


ahol 


1 PF 
hd. GKÚRxJ 12 (XX) ET a Na] : 
jó 7-1 ir e5 


F 
Ph — s Kix,x I 
2 j , gied 


c pedig egy olyan SI dimenziós vektor, melynek r-edik eleme: 


F 
c.7 2 d ACX ax] 
1 : : gied 


Az egyenletrendszer megoldása egy csökkentett rangú (bázisú) ritka megoldásra vezet, mivel az csak 51 számú 
kernelt és az eltolást tartalmazza. 
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5. Kernel CMAC: egy LS-SVM gép véges tartójú kernel 
fuüggvényekkel 


Az eddigiekben láttuk, hogy a bázisfüggvényes hálózatok értelmezhetők kernel gépként is, amennyiben a 
jellemzőtérből a belső szorzat felhasználásával áttérünk a kernel térre. A kernel interpretáció származhat újfajta 
megközelítésből (szupport vektor gépek), melynek nincs a klasszikus neuronhálók között ekvivalense, de olyan 
úton 15 származtatható, hogy az eredmény valójában a klasszikus bázisfüggvényes megoldással ekvivalens (LS- 
S VM, ridge regresszió és változataik). Az előbbi esetben a komplexitásra vonatkozó előnyökön túl további 
előnyök is jellemzik a kernel gépeket: a szupport vektor gépeknél az általánosító-képességre 15 
megfogalmazhatók állítások. Az utóbbi esetben ilyen következménye nincs a kernel megközelítésnek. A 
komplexitás jelentős redukciója, a limitált komplexitás biztosítása azonban önmagában 1s jelentős előny. Az LS- 
SVM vagy a ridge regressziós megközelítést tehát érdemes akkor 1s alkalmazni, ha ezzel csupán a kapott háló 
komplexitását tudjuk redukálni. Ennek különösen akkor van jelentősége, ha az eredeti változatot a nagy 
komplexitás miatt esetleg meg sem tudjuk valósítani, miközben a kernel változat könnyen implementálható. 
Ilyen esetre ad példát az előző fejezetben bemutatott CMAC háló, amely számos előnyös tulajdonsága ellenére, 
többdimenziós esetben komplexitás-problémák miatt csak korlátozottan alkalmazható. 


A következőkben azt mutatjuk be, hogy ez a komplexitás-probléma a kernel reprezentáció segítségével hogyan 
oldható meg. A kernel-CMAC származtatásához induljunk ki a CMAC válaszát megadó (5.48) összefüggésből: 


y(x)— alx) w. (6.135) 


A választ megkapjuk, ha az optimális súlyvektor (5.55) kifejezését ebbe behelyettesítjük. Ezzel egy adott X-re a 
CMAC válasza: 


pixi — als wt — ax ATTÁA TT (6.136) 


Vegyük észre, hogy ez az összefüggés formailag azonos az egyszerű kernel gép válaszával ((1.9) összefüggés), 
ha az ottani £ bemenet helyére a CMAC kimeneti rétegének bemenetét (az asszociációs vektort) helyettesítjük, 
és hasonlóan az É mátrix helyére az asszociációs mátrixot A-t írjuk. A CMAC bázisfüggvényes háló, tehát az 


asszociációs vektor a bázisfüggvényes hálók "(60 vektorának felel meg. Vagyis a CMAC válasza az (6.14) 
összefüggéshez hasonlóan kernel formában 15 megadható: 


jöjsat áras seats 7 a EA 
2 2 . (6.137) 


A kernel függvény a CMAC-nál az asszociációs vektorok skalár szorzataként származtatható: 
Ela — alx) alx ) — Kialxalx )- Álxx.d (6.138) 

Az § vektor a kernel térbeli súlyvektor: 

sz (AA (6.139) 


Előfordulhat, hogy az 44" mátrix nem invertálható, pl. numerikus problémák miatt. Ekkor a szokásos 
regularizáció alkalmazható, vagyis AA" helyett a regularizált (444071) mátrixot invertáljuk. Vegyük észre, 
hogy ekkor valójában egy eltolásérték (bias) nélküli LS-SVM-et oldottunk meg, hiszen — mint láttuk — a mátrix 
inverziónál  bevezettet regularizáció hatása ekvivalens egy olyan LS-SVM megoldásával, ahol a 
kritériumfüggvénybe a súlyvektor hosszának négyzete, mint minimalizálandó mennyiség 15 szerepel. 


A kernel reprezentáció előnye nyilvánvaló: amíg az eredeti jellemzőtérbeli reprezentációnál a w; súlyok száma a 
tanítópotok számánál jóval nagyobb (ld. a (5.50)-(5.52) összefüggéseket), addig a kernel térbeli a ; súlyok száma 
a tanítópontok számával egyezik meg. A különbség különösen többdimenziós esetben jelentős. Az 5. fejezetben 
láttuk, hogy a súlymemória többdimenziós esetben még viszonylag kisméretű (néhány dimenziós) feladatnál 15 
olyan óriási, hogy semmilyen eszközzel nem implementálható. A különféle módosítások (hash kódoló réteg 
bevezetése, a többdimenziós feladat egy- vagy kétdimenziós részfeladatokra való dekomponálása, stb.) célja az 
volt, hogy a hatalmas méretű memóriát megvalósítható méretűre redukáljuk. Láthatóan a kernel reprezentáció 15 
egy eszköz az extrém komplexitás letörésére. 
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A kernel térben a CMAC válaszát kernel függvények súlyozott összegeként állítjuk elő. A kernel gépekre 
ugyanakkor az 1s jellemző, hogwíxi kernel függvényekből indulunk ki, és a jellemzőtérbeli leképezés nemlineáris 


a... 


transzformációját megvalósító leképezést csak implicit módon határozza meg a kernel függvény. A kernel 
CMAC-nál nem ez a helyzet. Itt valóban a CMAC négyszögletes (bináris) bázisfüggvényeiből belső szorzat 
útján határozzuk meg a kernel függvényeket. 


A bináris véges tartójú  bázisfüggvények miatt kernel függvényként egydimenziós esetben a 
háromszögfüggvényt kapjuk. Többdimenziós esetben a kernel függvény attól függ, hogy teljes lefedést vagy 
csak C-szeres lefedést alkalmazunk. Az eredeti Albus CMAC esetében az extrém komplexitás miatt a teljes 
lefedés szóba sem kerülhet, ha a bemeneti dimenzió 3-4-nél nagyobb. A kernel reprezentációnál azonban a 
komplexitást nem a jellemzőtér, hanem a kernel tér dimenziója határozza meg. A kernel tér dimenziója 
semmiképpen sem lehet nagyobb, mint a mintapontok száma, bármekkora — akár végtelen — 15 a jellemzőtér 
dimenziója. Ez azt jelenti, hogy a kernel reprezentáció esetén nincs szükség a lefedések számának korlátozására, 
a teljes lefedés 15 alkalmazható. A kétféle megoldás mindössze annyiban tér el egymástól, hogy más kernel 
függvényt eredményez, de a kernel függvények száma azonos lesz. 


A teljes lefedés azzal az előnnyel is jár, hogy így elkerülhető a €C-szeres lefedés következtében előálló 
approximációs képességbeli korlátozás. Láttuk, hogy többdimenziós esetben a C-szeres lefedésű bináris CMAC 
csak az additív függvényeket tudja hibátlanul megtanulni (Id. (5.58) konzisztencia-egyenlet). Teljes lefedés, 
illetve az annak megfelelő kernel változat mellett ez a korlátozás megszűnik. 


A 6.20 ábrán a bináris CMAC kernel függvényét mutatja egydimenziós (a) és többdimenziós esetben. A 
többdimenziós CMAC-nál mind a C-szeres lefedésnek (b), mind a teljes lefedésnek (c) megfelelő kernel 
függvény látható. A teljes lefedéshez tartozó kernel függvényt kvantált változatban 15 megadjuk (d). 


6.20. ábra - A CMAC hálózat kernel függvényei (a) egydimenziós eset, (b) kétdimenziós 


C-szeres lefedésű, (c) kétdimenziós teljes lefedésű, (d) kétdimenziós teljes lefedésű 
kvantált. 


] 
ü.§ 
ü.6 
ü.4 


ü.2 





(b) (c) 
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(d) 


A kernel változatnak azonban van egy hátrányos következménye. Az ábrából látható, hogy a kernel függvények 
már nem bináris függvények, emiatt a kimenet előállításánál a szorzásokat ténylegesen el kell végezni, a 
szorzónélküli felépítés, mint előnyös tulajdonság elveszett. A véges tartójú bázisfüggvények következtében 
azonban a kernel függvények 15 véges tartójúak, ami azt jelenti, hogy adott bemenet mellett a kimenet 
előállításában a kernel függvényeknek csak egy töredéke vesz részt, így a szorzások száma 1s erősen korlátozott. 


A válaszokat tekintve a kernel változat ekvivalens az eredeti változattal. Ez azt jelenti, hogy a kernel 
reprezentáció mellett 15 megjelenik a nagy általánosítási hiba mindazon esetekben, ha a C/t nem egész (t az 
egyes dimenziók mentén az egyenletesen elhelyezkedő mintapontok távolságát jelenti kvantumokban mérve). 
Ennek a hibának a jelentős mérséklését egy súlykiegyenlítő vagy súlysimító regularizáció alkalmazásával értük 
el (Id. 5. fejezet). A következőkben röviden azt foglaljuk össze, hogy ez a súlykiegyenlítő regularizáció a kernel 
CMAC esetében 1s alkalmazható. 


5.1. Kernel CMAC súlykiegyenlítő regularizációval 


A regularizált kernel CMAC megoldását a minimalizálandó kritériumfüggvény felírásából származtathatjuk 
[Hor071. 


F F d ; 
JÍw,el- ös pé gi 1—8 Ka Ev) 
EAT SÉRT (640) 


ahol "si a j-edik bemenethez rendelt asszociációs vektor i-edik bitje. (A továbbiakban a négyzetes hibatag 
együtthatóját y-val jelöljük az eddigi C-vel szemben, hogy a CMAC C paraméterével való jelölésbeli ütközést 
elkerüljük.) Látható, hogy a kritérrumfüggvény az LS-SVM kritériumfüggvényének felel meg, azzal a 
különbséggel, hogy egy regularizációs taggal bővült. A regularizációs tag együtthatója 4. Valójában az LS5-SVM 
kritériumfüggvénye 1s értelmezhető regularizált kritériumfüggvényként, így ítt most két egymástól független 
regularizációt alkalmazunk. 


Az LS-SVM-nél szokásos utat követve felírhatjuk a Lagrange függvényt: 


2 
F F d 

L(w,e ci ggg réme as E - a) 
2 2 2 fel talk Ée 


F 
2 Iwa, te, — do 


, (6.141) 


ami a következő alakra hozható: 
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1 F F 
LÍW, e éri — zww 155 e; Hi EK? [aj diaga Ow te, -d,] 
I I 


pod 
sosatt 


F d 4 
$T og T 4- 
5 — a diagj a Tr CW diagfa , w 
át ú Tee KÉST EE j 


(6.142) 


di I . . i § 
ahol aga, ) egy olyan diagonálmátrix, melynek főátlójában a; található. A megfelelő deriválások és 
behelyettesítések elvégzése után Itt 15 egy lineáris egyenletrendszert kapunk, melynek megoldása: 


- 
ür - korz) 1 53 Ko Ji 
y e . (6.143) 


F 
D - 2. aga, 
1-1 a 


Itt és 


Kj- A(IAADIT AT (6.144) 


a regularizált esetnek megfelelő kernel mátrix. Látható, hogy a regularizáció hatására a kernel mátrix 
megváltozott. A regularizáció tehát módosítja a kernel függvényt. A (6.138) által megadott kernel függvény 
helyett a 


K (AC) —- a(óT (I44D)T a(x) - Ko (a(xjalx )) - KR, x) (6.145) 


kernel függvényt kapjuk. Mivel D a tanítópontok elhelyezésének függvénye, valójában adatfüggő kernel 
függvényt kaptunk. A kernel függvény azonban csak a tanítópontoknak a bemeneti térben való 
elhelyezkedésétől függ, a kívánt válaszoktól nem. 


A háló válasza a regularizált esetben a következőre adódik: 


px -ar (0 (I 4ADTT AT É szal 
£ 1. (6.146) 


Ez az alábbi formában 1s felírható: 


P(x - 2 Als, x) - ELX 
ni , (6.147) 


ahol a PF együtthatóvektor a módosított kernel függvényekkel felépített kernel térbeli megoldás súlyvektorát 
jelölt: 


B- er Zd 


£  .(6.148) 


A regularizálás a kernel reprezentációs megoldás mellett 15 biztosítja a háló síma válaszát, tehát az 
általánosítóképesség jelentős javítását. A regularizált kernel CMAC tehát nemcsak a komplexitás jelentős 
redukcióját biztosítja, hanem az approximációs- és általánosítóképességet 1s Javítja. 


A regularizált kernel CMAC azon túl, hogy egy jobb tulajdonságú tanuló rendszert eredményez, arra 15 példa, 
hogy regularizációs formában az alapkritérium mellett további mellékfeltételek 15 belefogalmazhatók egy 
feladatba. Az eljárás hatékonysága attól függ, hogy az így definiált optimalizálási feladat milyen nehézségek 
árán oldható meg. 


6. A kernel gépek összefoglaló értékelése 


8: ae a 


Az első újdonság a megoldás komplexitásához köthető. A kernel trükk alkalmazása a komplexitást a 
tanítópontok száma által meghatározott mértékben mindenképpen korlátozza. A kernel reprezentáció 
önmagában előnyös mindazon esetekben, amikor a bemeneti tér vagy a bemenetből nemlineáris 
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transzformációval előállított jellemzőtér sokdimenziós. A kernel reprezentáció azt teszi lehetővé, hogy a feladat 
tetszőlegesen sokdimenziós, akár végtelen dimenziós is lehet. Ezt az előnyt a kernel gépek mindegyike 
biztosítja. 


A második, az összes kernel gép közül az elsősorban Vladimir Vapnik nevéhez köthető szupport vektor 
gépekhez (SVM) kapcsolódik. A szupport vektor gépek azon túl, hogy a tanítópontokban értelmezett hiba 
minimalizálását célozzák, azt 15 célnak tekintik, hogy a megoldás , optimális komplexitású" legyen, ezáltal a 
modell minőségéről 15 tudjanak valamit állítani. A modell komplexitásának , mérésére" a szupport vektor gépek 
a VC-dimenziót alkalmazzák. Az SVM a VC-dimenzió korlátozásával a strukturális kockázat minimalizálás 
(SRM) elvét valósítja meg. Ennek következménye, hogy az SVM hibájára — a valódi kockázatra — felső korlátok 
fogalmazhatók meg. Az SRM elv érvényesítését a szupport vektor gépek a súlyvektor hosszának minimalizálása 
útján biztosítják. A felső korlátok és az SVM egyes változatai közötti kapcsolatot pedig az teremti meg, hogy a 
súlyvektor hosszának minimalizálása a margó maximalizálásán keresztül a VC-dimenziót 15 minimalizálja. 


A súlyvektor hosszának minimalizálása a többi kernel gép származtatásának 15 része, vagy része lehet. Ez 
általánosan 1s , simító" regularizációs hatást eredményez. Az LS-SVM és a ridge regressziós megoldásoknál, 
valamint ezek változatainál a simító hatás ellenére jelenleg nincs olyan érvényes eredmény, amely az SVM-hez 
hasonló felső korlátokat tudna megállapítani. Ez annak ellenére van így, hogy a gyakorlati tapasztalatok szerint 
a kétféle kernel gép jellegében nagyon hasonló eredményekre vezet. Az SVM és az LS-SVM ilyen szintű 
kapcsolatának részletes elemzése még hátra van. 


Az SVM és a többi kernel gép között abban a tekintetben is eltérés van, hogy a szupport vektor gépek ritka 
megoldást adnak, kiválogatják azokat a tanítópontokat, melyek a megoldáshoz szükségesek, amelyek a 
megoldást , tartják". Hasonlóan ritka megoldás az LS-SVM-nél, illetve a ridge regressziónál 15 biztosítható (pl. 
LS7-SVM, RRKRR) , ezekben az esetekben azonban ez nem az alapeljárás része, hanem az alapeljárást követő 
redukció eredménye. 


Bár a kernel gépek alapvetően egy számítási eljárásként jelennek meg, neuronhálóként 15 értelmezhetők. Mint 
neuronhálók, a statikus előrecsatolt hálók családjába tartoznak. Ez lehetővé tesz, hogy a klasszikus előrecsatolt 
statikus hálózatokkal — MLP, bázisfüggvényes hálózatok — 15 összevetésre kerüljenek. Az MLP-vel való 
összehasonlítás a legnehezebb, hiszen a kétféle megoldás strukturálisan 15 eltérő. A kernel gépek és elsősorban 
az SVM előnye, hogy a komplexitás-problémára megoldást adnak. Minőség tekintetében viszont nem lehet 
rangsort felállítani, még akkor sem, ha a minőségre vonatkozó korlátok a klasszikus hálókra nem vonatkoznak. 
A korlátok hiánya ugyanis nem azt mondja, hogy pl. egy MLP-vel nem tudunk hasonlóan jó, vagy netán jobb 
megoldást 1s elérni, mint egy SVM-mel, csupán azt, hogy az MLP-vel elérhető valódi kockázatról általános 
eredményt jelenleg nem tudunk megfogalmazni. 


A bázisfüggvényes hálókkal való összehasonlításnál az SVM-et és a többi kernel gépet külön kell vizsgálni. Míg 
az LS-SVM és a ridge regresszió a különböző változatokkal együtt valójában a bázisfüggvényes hálózatok 
eltérő, de ekvivalens megvalósítása, az SVM a kiinduló probléma más megfogalmazása miatt elvileg 15 más 
eredményt ad. Erre vonatkozó kísérleti eredmények 1s ezt a különbséget támasztják alá. (Id. pl. az RBF és a 
Gauss kerneles SVM összehasonlítására vonatkozó eredményt [Sch96]). 


A fejezet végén bemutatott kernel CMAC egy konkrét példa a kernel reprezentáció hasznára bázisfüggvényes 
hálózatoknál. Ennek specialitása a véges tartójú bázisfüggvény és az ebből következő véges tartójú kernel 
függvény. A regularizált kernel CMAC pedig arra egy példa, hogy regularizációs formában az alapkritértum 
mellett további mellékfeltételek 15 belefogalmazhatók egy feladatba. Az eljárás hatékonysága attól függ, hogy az 
így definiált optimalizálási feladat milyen nehézségek árán oldható meg. 


A kernel gépekkel kapcsolatos első eredmények alapvetően a kilencvenes években születtek. A számos nyitott 
kérdés miatt azonban folyamatosan jelennek meg újabb és újabb eredmények, melyek többirányú kutatás 
eredményei. A fontosabb irányok: a kernel függvény megválasztása, adaptív és adatfüggő kernel konstrukció, az 
általánosítóképességre vonatkozó újabb és kevésbé pesszimista korlátok meghatározása, továbbá a ritka 
megoldások elérése és a számítási komplexitás további mérséklése. Fontos kérdés az 15, hogy a kernel gépek 
alkalmazásával minél több tapasztalat gyűljön össze, melyek a hatékony gyakorlati felhasználást segíthetik. 
Néhány alkalmazási területről a következő fejezetben lesz szó. 


Feladatok 


6.1 Mutassa meg, hogy egy Xx pontnak a w"Tx--b—0 egyenlettel definiált lineáris szeparáló felülettől való távolsága 
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6.2 A XOR probléma megoldásában az hőxt polinomiális kernel függvény alkalmazható, ha p—2. Vizsgálja 
meg a polinomiális kernel alkalmazhatóságát más pozitív egész p értékekre. 


(xi D 


6.3 Konstruáljon szupport vektor gépet az egydimenziós sinc függvény approximálására 
kernel függvény mellett. Vizsgálja meg p szerepét az approximáció minőségét illetően. 


polinomiális 


6.4 Készítsen egy osztályozós mintakészletet (Id. 6.21 ábra), valamint egy paraméterezhető (kernel paraméterek 
— pl. RBF esetén § , £ , 5) tesztkörnyezetet, ami egy tanítókészlet alapján megtanít egy SVM osztályozót és 
meghatározza a hibás osztályozások számát (arányát) a tesztkészletre. (A feladatok során mindig legyen 
figyelemmel a megoldás hibájára, a számítási időre valamint a szupport vektorok számára.) 


a. Bontsa fel a mintapontokat tartalmazó fájlokat egy tanító és egy teszt készletre. A fájlban a pontok 
elrendezése (sorrendje) nem ismert, ezért célszerű figyelni arra, hogy mindkét osztályból és egyenletesen 
válasszunk elemeket. (Segítség: keverje össze az adatfájlt a válogatás előtt.) 


b. Határozza meg az SVM egy olyan paraméterezését, melyre az osztályozás elfogadható eredményt ad. 
(Segítség: használjon kicsi — max. 200 mintapontból álló — tanítókészletet és Gauss kernelt.) 


c. Vizsgálja meg, hogy hogyan függ az eredmény a kernel függvény megválasztásától. Tesztelje a hálózatot az 
egyes kernelek paramétereinek változtatásával 1s. 


d. Hogyan függ az eredmény a £ paraméter megválasztásától? 


e. Vizsgálja meg, hogy hogyan függ az eredmény és a futási idő a tanítópontok számától. (Segítség: célszerű 
kisebb tanítókészletből kiundulni és addig növelni a pontok számát, amíg a számítás kivárható.) 


6.21. ábra - Két lehetséges mintakészlet az osztályozós feladatokhoz. 
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6.5 Készítsen egy mintakészletet a sinc(x) függvény pontjaiból, valamint egy paraméterezhető tesztkörnyezetet 
(kernel paraméterek — pl. RBF esetén — , £ , 7), ami egy tanítókészlet alapján megtanít egy SVM regresszort és 
meghatározza a regresszió négyzetes hibáját. 


a. Bontsa fel a mintapontokat egy tanító és egy teszt készletre (Segítség: Vegye például az adatfájl minden n- 
edik elemét, vagy keverje össze a mintapontokat és ezt ossza ketté. ) 


b. Határozza meg az SVM egy olyan paraméterezését, mely elfogadható eredményt ad. (Segítség: használjon 
kis — max. 200 mintapont — tanítókészletet és Gauss kernelt.) 


c. Vizsgálja meg, hogy hogyan függ az eredmény a kernel függvény megválasztásától. Tesztelje a hálózatot az 
egyes kernelek paramétereinek változtatásával 15. 
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d. Hogyan függ az eredmény a £ paraméter megválasztásától? 


e. Vizsgálja meg, hogy hogyan függ az eredmény és a futási idő a tanítópontok számától. (Segítség: célszerű 
kisebb tanítókészlettel indulni és addig növelni a pontok számát, amíg a számítás kivárható.) 


6.6 Az előző regressziós feladatokat végezze el LS-SVM illetve LS7--SVM használatával 1s. 


6.7 Származtassa a magasabbrendű CMAC kernel függvényét, ha a CMAC hálózat bázisfüggvénye k-adrendű 
B-spline. 


6.8 Mutassa meg, hogy az RRKRR eljárásnál a bázisvektorok kiválasztásának alapját képező approximációs 
hiba (6.128) és (6.129) összefüggései ekvivalensek. 
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statikus hálók alkalmazásai 


Az eddigiekben bemutatott neuronhálók — bár felépítésükben, származtatásukban és tanításukban jelentősen 
különböznek egymástól — mind az ellenőrzött tanítású statikus hálózatok közé tartoznak. Ahogy láttuk ezeknek a 
hálózatoknak a többsége szinte tetszőleges folytonos nemlineáris leképezés tetszőleges pontosságú közelítésére 
képes. Ez az univerzális approximációs képesség és a hálózatok adaptivitása az alapja e hálótípusok gyakorlati 
alkalmazásainak. 


A felhasználási területek nagyon szerteágazók, és jellegükre nézve két fő csoportba sorolhatók. Az egyik 
csoportba azok tartoznak, melyeknél a feladat rögzített, vagyis ha a tanítópontok alapján egyszer létrehoztuk a 
hálót, akkor ez a továbbiakban módosítás nélkül alkalmazható. A másik csoportba tartozó alkalmazási 
területekre, gyakorlati feladatokra az jellemző, hogy maga a feladat 15 változik, és ezt a változást a hálónak 
követnie kell. Itt tehát a megtanított háló működése közben a változó feltételekhez, körülményekhez való 
adaptálódás 15 követelmény. 


Ebben a fejezetben néhány tipikusnak mondható feladat neuronhálós megoldását mutatjuk be röviden. Ezek a 
feladatok többségükben az első feladatosztályba tartoznak, ahol a feladatot egyszer kell a hálónak megtanítani, 
az alkalmazás folyamatos adaptálódást nem igényel. Az on-line adaptációs képesség elsősorban a dinamikus 
feladatoknál jelentkezik követelményként, melyekkel a következő fejezetben, az időfüggő hálózatok kapcsán 
fogunk foglalkozni. 


A néhány feladat messze nem fedi le az alkalmazási lehetőségek teljes spektrumát. A teljes spektrum áttekintése 
nem 1s célja a fejezetnek, sőt még az sem, hogy a legfontosabb alkalmazási területek többségét érintse. A 
viszonylag egymástól távoli alkalmazási területek ugyanakkor azt kívánják alátámasztani, hogy a neuronhálók 
egyfajta univerzális feladatmegoldó eszközök. Ennek az sem mond ellent, hogy most is, és a későbbi 
alkalmazásokhoz kapcsolódó fejezetek során 15 külön hangsúlyozni szeretnénk, hogy az univerzális képességek 
ellenére a sikeres alkalmazáshoz az adott tématerület minél jobb megismerése, a feladat minél teljesebb 
megértése elengedhetetlen. 


A neurális hálózatok népszerűségüket az univerzális képességükön túl annak 15 köszönhetik, hogy megértésük, 
használatuk viszonylag egyszerű, legalábbis az általuk megoldani célzott feladatokhoz képest. A használt 
algoritmusok nem bonyolultak, így kis programozói gyakorlattal bárki tud készíteni vagy használni egy hálózat 
szimulátor programot. Ezt azután csak megfelelő adatokkal kell feltölteni, és a beépített tanulás segítségével az 
adott feladatot a program — szerencsés esetben — elsajátítja. A tapasztalat azonban az, hogy így csak olyan 
problémák oldhatók meg kielégítő szinten, amelyek számos másfajta, hagyományos eljárás segítségével 15 
megoldhatók volnának. 


Egy alkalmazás sikeres elkészítéséhez, mind az adott feladat, mind az alkalmazandó eszköz, a neurális hálózat 
alapos ismeretére van szükség. Az alkalmazások többsége a többrétegű perceptront használja. Azt mondhatjuk, 
hogy az MLP messze a leggyakrabban alkalmazott neuronháló, bár az újabb eszközök, különösen a kernel gépek 
különböző változatai 15 egyre gyakrabban kerülnek alkalmazásra. A sok különböző alkalmazási terület közül 
néhány fontosabb: 


e egy- és többdimenziós jelfeldolgozás (képfeldolgozás, beszédfeldolgozás, stb.) ideértve a különböző 
felismerési problémákat is: pl. nyomtatott, vagy kézzel írott karakterek, szövegek felismerése, beszéd és 
beszélő felismerés, stb. 

e  rendszer-identifikáció és vezérlés, 

e robotika, 

e orvosi és műszaki diagnosztika, 

e pénzügyi és közgazdasági folyamatok modellezése, jellemzők becslése. 

Az említett alkalmazási területekhez kapcsolódó feladatok egy része megoldható az eddig tárgyalt statikus 


nemlineáris leképezésre alkalmas, előrecsatolt hálózatokkal, más részük dinamikus feladat, így ezen 
alkalmazásokhoz a későbbiekben tárgyalt időfüggő hálózatok szükségesek. 
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Egy gyakorlati feladat megoldásánál először a probléma elemzése alapján azt kell eldönteni, hogy a feladat mely 
részeit próbáljuk neurális eszközzel megoldani, és milyen hálózattípus tűnik alkalmasnak a megoldásra. A fent 
leírtak alapján azokat a részfeladatokat célszerű neurális hálózattal megvalósítani, amelyekre nem tudunk gyors 
algoritmikus megoldást adni. A hálózat típusánál meghatározó szempont az 15, hogy mennyi a rendelkezésre álló 
tanítási idő, milyen jellegű az adatbázis (hány dimenziós adatokból és hány adatból áll, stb.), továbbá milyen 
más a priori információ áll rendelkezésünkre a problémáról. A feladatról lévő előzetes ismereteinknek a hálózat 
struktúrájának és tanítási algoritmusának  kiválasztásán kívül az adatok megfelelő  kódolásában, 
előfeldolgozásában 15 fontos szerepük van. A most bemutatásra kerülő alkalmazások ezekre a kérdésekre is 
kitérnek, a kérdések általánosabb tárgyalásával azonban a 13. fejezetben foglalkozunk. 


1. Felismerési feladatok (képosztályozás) 


Az alakfelismerés (pattern recognition), és ezen belül 15 a képosztályozás a neurális hálózatok egyik tipikus 
alkalmazási területe. Nemcsak azért, mert számos sikeres megoldás született különböző problémákra (pl. 
arcfelismerés, irányítószám-felismerés, rendszámfelismerés), de azért 15, mert a feladatok megoldásánál 
alkalmazott módszerek jól reprezentálják az alkalmazások készítésénél felmerülő problémákat: az 
adatreprezentáció megválasztását, a megfelelő hálózati struktúra és tanulási algoritmus kijelölését, a tanító 
mintapéldák kiválasztását. Ebben az alfejezetben két régebbi (1989-es ill. 1992-es), és egy újabb (2002-es) 
neurális hálózat alapú számjegyfelismerő rendszert mutatunk be, amelyek lényegesen eltérő megközelítéseket 
alkalmaznak. A megoldott feladat mindhárom esetben kézzel írt irányítószám számjegyeinek az azonosítása 
volt. 


Az egyik legnehezebben eldönthető probléma az alkalmazások megvalósításánál a megfelelő adatreprezentáció 
megválasztása. Ha viszonylag alacsony szintű, , nyers" reprezentációt alkalmazunk, akkor a megoldási 
eljárásnak, a neurális hálózatnak nehéz feladatot kell megoldania, mivel az adatokból neki kell kiválasztani a 
lényeges információkat. Ha a mintafelismerést végző hálózat már egy előfeldolgozott, magas szintű 
adatreprezentációt felhasználva dolgozik, akkor a számára megoldandó feladat már viszonylag egyszerűbb lesz. 
Ennek a módszernek hátránya, hogy az előzetes adat-transzformálás gyakran időigényes és információvesztéssel 
jár. Tehát, míg az első esetben az adatokat gyorsan lehet a neurális hálózat bemenetére juttatni, viszont a hálózat 
működése lassú és a bonyolult megoldandó probléma miatt esetleg nem lesz kielégítő minőségű, addig az utóbb 
említett módszernél az adatok előfeldolgozása lassíthatja az eljárást és az itt elvesztett információ okozhat 
gyengébb eredményt a felismerés során. Azt, hogy melyik megközelítést érdemes használni, minden 
alkalmazásnál külön meg kell vizsgálni. 


Akár alacsony szintű, akár magas szintű reprezentációt használunk, az a priori információk felhasználása fontos 
kérdés. Az első alkalmazási példánál ez az osztályozást végző hálózat struktúrájának kialakításánál, a második 
módszer esetében az előfeldolgozás során történik. A harmadik esetben a tanító készlet bővítésével 
hasznosították az előzetes ismereteket. 


Ezek után nézzük meg a három karakterfelismerési alkalmazást, amelyek között mindkét bemutatott 
megközelítés előfordul: az első és a harmadik módszer alacsony szintű, míg a második módszer magas szintű 
reprezentációt használ. 


Az Irányítószám felismerés feladatánál a megoldás első lépése a rögzített képen a számjegyek helyének 
meghatározása és a karakterek szegmentálása. Ezt, az önmagában 1s bonyolult feladatot mindhárom esetben egy 
külön rendszer végezte, amivel ítt most nem foglalkozunk. A probléma megoldását attól a ponttól vizsgáljuk, 
ahol a bemenet az izolált számjegyek pixel képe. 


1.1. Számjegyfelismerés speciális struktúrájú MLP-vel 


Az első alkalmazási megoldásban [LeC89] a többrétegű perceptron struktúra egy módosított változatát 
használták fel. A hálózat bemenetére közvetlenül a kézzel írt számjegy 16x16-os felbontású fekete-fehér pixel 
képe került. A bemenetek 3 rejtett rétegen keresztül kerültek a kimeneti réteg 10 elemére, amelyek rendre a 0-9 
számjegyeknek feleltek meg. 


Az első két rejtett réteg a bemeneti kép különböző részeiben felismerhető tulajdonságok felismeréséért felelős, 


míg az utolsó rejtett réteg és a kimeneti réteg neuronjai ezeknek az információknak a felhasználásával végzik az 
osztályozást. 


7.1. ábra - Többrétegű perceptron struktúra karakterfelismerési feladathoz 


193 
XMLmind XSL-FO Corverter 


Ellenőrzött tanítású statikus hálók 
alkalmazásai 


10 kimeneti neuron 


30 neuron 


12 tulajdonság figyelő 
(4x4-es mátrixok) 


12 tulajdonság figyelő 








gp xi sz Ai TRERSEE ($8x$-as matrixok ) 
$$ 4 B EK TTEREÉLÉS - 
NM MA si s Ez 7 
ha 8 Fr d 7 
"§ 7 ) a Vá E. 
8 Fal 8 f 
- d / 
Hi kal / 
: / 
j8 4 lóx16-os bemenet 
7 Fi 
T 
Hi 
TT 
"ri 


Az első rejtett réteg 12 csoportból áll, ahol mindegyik csoport 64 neuront tartalmaz. A csoport minden 
műveletvégző egysége a bemeneti kép egy 5Xx5 pixelből álló négyzetével van összekötve úgy, hogy a 
szomszédos neuronokhoz a bemeneti kép két pixellel eltolt szomszédos részletei tartoznak. A csoportok mind a 
64 neuronjának ugyanazok a súlyai, így ugyanazt a mintát detektálják a kép különböző részein. Így az első 
rejtett réteg minden neuronjának 25 bemeneti összeköttetése van. Ez a megoldás úgy biztosítja a kép egyes 
részeiben rejlő információ feldolgozását, hogy közben jelentősen csökkenti a tanítandó szabad paraméterek 
számát a teljes összeköttetéshez képest (majdnem 200 ezer kapcsolat helyett mindössze (25-7-64)12—1068, 
beleszámolva az összes neuronhoz tartozó független eltolás (bias) egységeket 15). 


A második rejtett réteg hasonlóan az elsőhöz egyes részletekben rejlő tulajdonságok felismerését végzi, és az 
ábrán látható módon az első réteg megfelelő 5x5-ös részmátrixaival van összeköttetésben. A harmadik réteg 30 
neuront tartalmaz, amelyek teljes összeköttetésben állnak a második rejtett réteggel és a 10 kimeneti neuronnal. 
A hálózat összesen 1256 neuront és 9760 független súlyparamétert tartalmaz. 


A hálózatot hibavisszaterjesztéses algoritmussal tanították, és a tanuláshoz 7000 számjegyet használtak fel. A 
tanított hálózat működését végül újabb 2000 számjegy felhasználásával ellenőrizték. A tanított mintahalmaz 
9990-át ismerte fel helyesen a rendszer, míg a tesztelésre használt karaktereknél 9590-os eredményt értek el. 
Mivel az alkalmazás szempontjából előnyösebb, ha a számjegyek egy részénél a rendszer bizonytalanságot 
jelez, és ezzel csökkenthető a hibás felismerések száma (kisebb kárt jelent egy lassabban feldolgozott levél, mint 
egy rossz helyre továbbküldött), ezért azoknál az eseteknél, ahol több kimeneti neuron hasonló erősséggel 
jelezte, hogy a bemenet a hozzá tartozó osztályba való, ott a rendszer eredményét nem vették figyelembe. Így a 
hibás felismerések arányát sikerült 190 alá szorítani, miközben a levelek közel 1090-át a program kézi 
feldolgozásra irányította át. 


1.2. Számjegyfelismerés egyrétegű hálózattal 


A második bemutatásra kerülő megoldás [Kne92] 15 a 16x16-os pixel képeket használta bemeneti adatként. Itt 
viszont az adatok nem kerültek közvetlenül a hálózat bemenetére, hanem egy előfeldolgozó egységen keresztül 
jutottak oda. A transzformáció alapgondolata az volt, hogy a számjegyek vonalszegmensekből állnak, és ezek 
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előzetes felismerése megkönnyíti az osztályozást. Ezért a képen négy éldetektáló szűrést hajtottak végre az ún. 
Kirsch maszkokkal való végigpásztázással, aminek eredményeképpen négy képet kaptak, amelyeken az eredeti 
karakter vízszintes, függőleges illetve a két átló irányú vonalszegmensei vannak kiemelve. Ezt a 4 képet 8x8-as 
méretűre normalizálva alakították ki a hálózat 4x8x8—256 elemű bemenetét. 


7.2. ábra - A kép előfeldolgozása 
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Az előfeldolgozott adat osztályozását egyrétegű perceptronnal oldották meg. Ennek a hálózatnak nagy előnye, 
hogy a többrétegű hálózathoz képest lényegesen gyorsabb a tanítása, viszont a megoldás létezésének feltétele az 
osztályok lineáris szeparálhatósága. Az egy hálózatra jutó feladat egyszerűsítése céljából (ami természetesen a 
hálózat teljesítményének a javulását eredményezi) és a lineáris szeparálhatóság esélyének növelése céljából az 
osztályozási feladatot szétbontották olyan részfeladatokká, ahol egy-egy hálózat csak két osztály között tesz 
különbséget. A 10 számjegy felismerését így 45 külön hálózat végezte, melyek mindegyike két osztályt 
különböztetett meg, rendre az 1/2, 1/3, 1/4, ... , 8/9, 8/0, 9/0 számjegyeket. Az osztályozás utolsó lépésében a 
megfelelő neuronok kimeneteit 10 darab ÉS kapura vezették, melyek kimenete jelezte az egyes számjegyek 
felismerését. (Ez a megoldás egy konkrét példája az olyan moduláris hálózat kialakításnak, ahol egy 
többosztályos osztályozási feladatot kétosztályos részfeladatokra bontunk fel, majd a részfeladatok 
megoldásaiból aggregáljuk a teljes megoldást. Az ilyen típusú feladat-dekomponálással általánosabban a 9. 
fejezetben foglalkozunk.) 


Ennél a megoldásnál 15 felmerült, hogy szükséges a módszert úgy módosítani, hogy néhány karakter 
felismerésének visszautasítása árán a hibás osztályozások száma csökkenjen. Ezt itt úgy oldották meg, hogy a 
perceptronok döntési szintjét (küszöbét) megemelték, így a bizonytalan felismeréseket kiszűrték. 


A hálózatok tanítását itt 15 gradiens módszerrel végezték, és ugyanazokat a karaktereket használták fel, mint az 
első megoldásnál. Az elért eredmények szinte teljesen megegyeztek az előző szakaszban bemutatott többrétegű 
perceptront alkalmazó megoldással, így a két módszer közötti választás a könnyebb implementálhatóság 
függvénye. Ebben az esetben ezt a kérdést csak a rendelkezésre álló eszközök és az időkorlátok ismeretében 
lehet eldönteni. Az elsőként bemutatott megoldás előnye, hogy egy lépésben, egy neurális hálózattal oldja meg a 
feladatot, és a tanított hálózat a felismerés során gyors működést tesz lehetővé. Hátránya viszont, hogy a tanulás 
folyamata időigényes. Ezzel szemben a második megoldás előnye, hogy egyszerűbb a rendszer és a tanítás 
lényegesen gyorsabb, viszont a felismerési folyamat során mindig szükség van a bemenő képek 
előfeldolgozására, ami időigényes. 
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7.3. ábra - Egyrétegű hálózat előfeldolgozott minták osztályozására 
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Bár Itt a két megvalósítás lényegében egyforma eredményt hozott, a két módszer közti prioritás meghatározására 
általánosan 15 meg lehet fogalmazni bizonyos szempontokat. A többrétegű perceptron akkor működik jól, ha 
nagy mennyiségű, a lehetséges bemeneteket minél jobban reprezentáló tanító minta áll rendelkezésre. Ennek az 
az oka, hogy a tanítás során a hálózat nagyszámú szabad paraméterét kell beállítani. A másik megoldásnál az 
előzetes feldolgozás hatékonysága nem függ a mintáktól és az egyszerűbb hálózat beállításához nem szükséges 
a különösen nagy tanító mintahalmaz. Itt viszont határt szab a felismerő rendszer rugalmasságának az egyrétegű 
hálózat korlátozott általánosító képessége. Összefoglalva az első, általánosabb megközelítést akkor célszerű 
alkalmazni, ha a problémához kellő mennyiségű tanító példa áll rendelkezésre (az elégséges minta számát csak a 
feladat ismeretében lehet meghatározni), míg az előfeldolgozás és a kisebb hálózat használata akkor előnyösebb, 
ha viszonylag kevés minta áll rendelkezésre és a tanításra fordítható idő 15 rövidebb. 


1.3. Számjegyfelismerés MLP-vel, újabb eredmények 


Az első megoldások megjelenése utáni években annyiféle különböző megközelítést próbáltak ki a 
számjegyfelismerési feladatra, hogy a probléma szinte klasszikussá vált. Bár a feladat alapvető megoldhatósága 
ma már nem kérdés, az egyre pontosabb és robusztusabb megoldások keresése jelenleg 15 nyitott terület. A 
tanuló algoritmusok kipróbálására, kísérletezésre 15 kitűnően alkalmas ez a gyakorlati színezetű, mégis kellően 
jól definiált probléma. 


Most [Tak03] alapján egy ilyen, a többrétegű perceptron alkalmazásával megvalósult kísérlet eredményeit 
foglaljuk össze. Erdekes, hogy mennyire másként lehetett megközelíteni ugyanazt a feladatot az első 
megoldások megszületése után 10 évvel, összehasonlíthatatlanul fejlettebb számítástechnikai feltételek mellett. 


Az 1990 körüli megoldásokban közös, hogy kis elemszámú mintakészleteket használtak, illetve a teljes 
összekötöttségű, , tiszta" MLP-hez képest erősen korlátozták a szabad paraméterek számát. Ennek egyik oka, 
hogy az akkor jellemző számítási teljesítmények mellett kivárhatatlanul hosszú ideig tartott volna egy 16x16 — 
256 bemenetű MLP tanítása, mondjuk 500 rejtett neuronnal és fél milliós elemszámú tanító készlettel. 2002-ben 
már ki lehetett próbálni a nyers erő módszerét, vagyis egy hatalmas tanító készlet számjegyeit komoly 
előfeldolgozás nélkül rá lehetett adni egy nagy neuronszámú MLP bemenetére. 


A kísérletben a hálózat a számjegyeket 14x14-es vagy 7x7-es felbontású változatban kapta, így 196 vagy 49 


bemenettel rendelkezett. A rejtett rétegek számát illetve méretét változtatni lehetett, a kimeneti neuronok száma 
10 volt (minden számjegyhez tartozott egy). Egy rejtett réteg esetén a hálózat felépítését a 7.4 ábra szemléltett. 


7.4. ábra - Számjegyfelismerés egy rejtett rétegű MLP-vel 
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Ez a felépítés tekinthető úgy 15, hogy a rejtett réteg nemlineáris transzformációt hajt végre a bemeneten, a 
kimeneti neuronok pedig 10-féle lineáris szeparálást végeznek a transzformált térben. A tapasztalatok azt 
mutatták, hogy az egyes számjegyek szétválasztása az összes többitől nem oldható meg lineáris felülettel az 
eredeti térben. Ilyen helyzetekben merül fel lehetséges megoldásként a dimenziónövelő nemlineáris 
transzformáció alkalmazása, ami esetünkben azt jelenti, hogy a rejtett réteg nagyobb legyen a bemeneti rétegnél. 


A számjegy-felismerési feladatra jellemző, hogy bizonyos típusú bemeneti torzítások kismértékű alkalmazása 
nem befolyásolja az osztályozás végeredményét. Ilyen például az eltolás, elforgatás, vagy vastagítás illetve 
vékonyítás. Ezt az a priori tudást sokféleképpen be lehet építeni a számjegyfelismerőbe. Talán a legegyszerűbb 
megközelítés a számjegyek torzított változatainak hozzávétele a tanító készlethez. 14x14-es vagy 7x7-es 
képekre a néhány ptixellel való eltolás megvalósítható információveszteség nélkül (invertálható módon), ha a 
kép szélein található egy kis üres sáv. Forgatás vagy vastagítás esetén viszont a túl durva felbontású 
reprezentáció miatt a bemenet célzott módosítása mellett információveszteség 1s fellép. Ezért a kísérletben csak 
a számjegyek eltolt változataival bővítették a tanító készletet, amelynek elemszáma ily módon 60.000-ről 
540.000-re volt növelhető (1 pixeles eltolást alkalmaztak függőlegesen, vízszintesen és átlósan). 


Újabb döntési pont, hogy a bővítés memória vagy számítási erőforrás felhasználásával történjen-e. A kísérletben 
az utóbbi mellett döntöttek, vagyis csak a számjegyek eredeti változatát tárolták, és minden tanítási lépés előtt 


egy torzítási transzformációt hajtottak végre (amely esetleg helybenhagyás 1s lehetett). 


A tanítást hagyományos backpropagation algoritmussal végezték, momentum módszer alkalmazásával. A 
tanítás paramétereinek beállítására tapasztalati úton, kísérletezéssel alakult ki a következő recept: 


e A súlyok inicializálása a [-0, 1; --0,1] intervallumból való, egyenletes eloszlású sorsolással történt. 


e A bátorsági faktort a tanítás elején a hálózat mérete alapján állították be (nagyobb hálóhoz kisebb bátorsági 
faktor), majd tanítás során folyamatosan csökkentették. 


e A momentum együttható értéke konstans 0,8 volt. 
A tesztelést egy 10.000-es elemszámú mintakészlettel végezték, amely nem azonos a 10 évvel korábbi 


számjegyfelismerőknél használt készlettel. Szerencsére az új készlet bővebb és változatosabb a réginél, ezért 
feltételezhető, hogy az új tesztkészlettel elért eredmények nem romlanának a régi tesztkészletet használva. 


7.5. ábra - Részlet a tesztelő készlet számjegyeiből 
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A tesztelő készlet érdekessége, hogy számjegyei más emberektől származnak, mint a tanító készlet számjegyeI. 
A különböző beállítások mellett elért eredményeket az alábbi táblázat foglalja össze: 


7.1. táblázat - A számjegyfelismerő pontossága különböző beállítások mellett 


Bemenetek Rejtett neuronok I Tanító készlet I Találati 
száma 


nagysága 


HÉ 60000 9654 
49 [do 540000 1669 


A táblázatból leolvasható, hogy a képek finomabb reprezentálása illetve a tanító készlet bővítése általában 
növelte a pontosságot, de nem mindig. Ebből is látszik, hogy az MLP hálózatok tanítása némileg heurisztikus 
folyamat, ahol jellemzően nem egyformán jól sikerülnek az egyes tanítási menetek. Érdemes kísérletezni, a 
tanítást többször megismételni, mert a tanulási ráta más stratégia szerint történő változtatása, vagy egyszerűen 
csak eltérő kezdeti súlyok használta esetleg egy kedvezőbb végállapot megtalálásához vezethet. Az elért 
maximális pontosság sokkal jobb, mint a 10 évvel korábbi eredmények. Érdekesség, hogy a kísérletben 
legpontosabbnak bizonyult MLP tanítása kb. 24 óráig tartott 





2. Szovegosztályozás 


A neurális hálózatok másik tipikus alkalmazási területe a szövegosztályozás. Az interneten található szöveges 
dokumentumok számának rohamos növekedésével a témakör napjainkban egyre fontosabbá kezd válni. 
Felmerülő konkrét feladat például a témakör szerinti dokumentum-kategorizálás, a spam szűrés, vagy az 
automatikus e-mail megválaszolás (ahol egy előre rögzített készletből kell kiválasztani a felhasználó kérdéséhez 
leginkább illeszkedő választ). 


Említettük már, hogy osztályozási feladatoknál kulcskérdés az adatreprezentáció. Szövegosztályozás esetén a 
szokásos megközelítés, hogy veszünk egy szótárt (pl. a tanító készlet szavainak összessége), amelynek minden 
szava külön jellemző. Minden szöveget egy valós vektorként reprezentálunk (x — [x:, ..., x.]"), ahol a szövegben 
előforduló szavaknak megfelelő komponensek nemzérus értékűek. Tehát szövegosztályozásnál a minták 
általában sokdimenziós, ritka vektorok. A neuronhálók egyes típusai a sokdimenziós feladatokat eltérő 
hatékonysággal tudják kezelni. E téren két szélsőség az Albus CMAC háló és a szupport vektor gép, illetve 
általában a kernel gépek. Azáltal, hogy a sokdimenziós bemeneti térről vagy a jellemzőtérről áttérünk a kernel 
térre, a ténylegesen megoldandó feladat dimenzióját jelentősen redukáljuk. A szupport vektor gépek tehát jól 
kezelik azokat a feladatokat, ahol viszonylag kevés mintapontunk van, de ezek sokdimenziósak. A 
szövegosztályozás tipikusan ilyen feladat, így az SVM igen elterjedt ezeknél a feladatoknál. Ha az egyes 
szövegek vektorok, akkor a teljes tanító készlet reprezentálható egy mátrixként, amelyet dokumentum — term 
mátrixnak hívunk. 


7.2. táblázat - Példa dokumentum-term mátrix 
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A konkrét jellemzőértékek beállítását többféle módszer szerint lehet végezni. A legegyszerűbb, ha a nemzérus 
komponenseket egységesen 1-re állítjuk (bináris reprezentáció). Ennél kicsit kifinomultabb a TF (Term 
Fregency) reprezentáció, amikor x; — TE(i), vagyis az i-edik komponens értéke az i-edik szótárszó 
előfordulásainak száma az adott dokumentumban. Talán a leggyakrabban használt módszer a szöveges 
dokumentumok reprezentálására a TF-IDF (Term Freguency — Inverse Document Freguency) séma: 





E] ) 
x,- TF IDF) - FR) log, 3 
Sze) 


ahol ID] a dokumentumok száma, DF(i) pedig azon dokumentumok száma, amelyekben az i-edik szó előfordul. 


2.1. Spam szűrés SVM-mel 


Az elektronikus levélszemét (spam) kiszűrése az internetes levelezésből napjainkban igen aktuális gyakorlati 
feladat. A levelek osztályozása spam-ekre illetve normál levelekre nem oldható meg néhány előre rögzített, 
egyszerű szabály segítségével. A mintákból való tanulás képessége ezen a területen 15 igen hasznos tulajdonság, 
így természetes lehetőségként kínálkozik a neurális hálózatok alkalmazása. Az alábbiakban egy szupport vektor 
gépes megoldást ismertetünk [Dru99]. 


Egy spam kategorizáló rendszer (mint minden kétosztályos osztályozó rendszer) alapvetően kétféle hibát tud 
elkövetni: nem szűr ki egy spam-et, vagy a spam-ek közé helyez egy normál levelet (általánosan az első a téves 
negatív, a második a téves pozitív osztályozás). Jogos elvárás, hogy a felhasználó állíthassa be a szűrés 
szigorúságát, vagyis ő dönthesse el, hogy melyik típusú hibázást szeretné jobban elkerülni. Ehhez viszont az 
kell, hogy az osztályozó rendszer kimenete ne csak egy ií1gen-nem típusú logikai érték legyen, hanem egy 
, valószínűség", amely megadja, hogy az adott levél mekkora eséllyel számít spam-nek. A szupport vektor gépek 
automatikusan ilyen bizonyossági értékként is értelmezhető választ állítanak elő, hiszen a kimenetük az 
osztályozandó mintának az elválasztó hipersíktól vett (előjeles) távolságával arányos. 


Az ismertetett spam kategorizáló rendszer a bináris és a TF szöveg-reprezentációt használta, néhány kis 
gyakorlatias módosítással. A szótárba csak azokat a szavakat vették be, amelyek tanító készlet dokumentumai 
közül legalább háromban szerepelnek. Így kiszűrhetők a szótárból az elírt ill. a ritka változatban használt 
szavak. Ezen kívül kísérleteztek tiltólista használatával a minden szövegben gyakran előforduló, kevés 
információt hordozó névelők, kötőszavak, stb. kiszűrésére. 


Az osztályozók minősítésére a legegyszerűbb mérőszám a hibaarány. Bizonyos feladatoknál (pl. 
számjegyfelismerés) ez az egyetlen szám iís eleget mond, mivel nem igazán érdekes a különböző típusú 
tévesztések aránya. Spam felismerés esetén azonban ez nincs így: itt érdemes külön lemérni a spam átengedési 
(téves negatív) ill. a normál levél kiszűrési (téves pozitív) arányt. Egy ésszerű megközelítés, ha a felhasználó 
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beállíthatja, hogy legfeljebb mekkora normál levél kiszűrési arányt tolerál. A cél a spam átengedés 
minimalizálása a normál levél kiszűrésre vonatkozó feltétel betartása mellett. 


A teszteléséhez használt adatbázis 3000 levelet tartalmazott. Ebből 850 volt spam, 2150 pedig normál üzenet. A 
rendszer teljesítményének mérésére 10-szeres kereszt kiértékelést alkalmaztak. Természetesen több különböző 
beállítást is kipróbáltak. Lemérték, hogy mennyire romlanak le az eredmények, ha a leveleknek csak a tárgy 
mezőjére (subject) vagy csak a törzsére (body) támaszkodnak. Megvizsgálták, hogy milyen változást okoz a 
tiltólista használata. A kapott eredményeket az alábbi táblázat foglalja össze: 


7.3. táblázat - Spam átengedés 5 "0-os normál levél kiszűrés mellett 


reprezentáció  Ireprezentáció 


Törzs alapján, tiltólistával 12,0 9 11,5 90 
Tárgy t törzs alapján, tiltólistal 1,8 90 1,5 90 
nélkül 

Tárgy tt törzs alapján, 12,7 90 329 
tiltólistával 


A legjobb eredményeket a bináris reprezentáció segítségével sikerült elérni, de volt olyan beállítás 15, amelyben 
a TF reprezentáció bizonyult jobbnak. Érdekesség, hogy a tiltólista használata minden esetben rontott az 
eredményeken. Ez arra enged következtetni, hogy az SVM ügyesebben választotta ki, hogy mely jellemzőket 
érdemes figyelembe venni a döntésnél, mint a tiltólistát összeállító emberek. 





3. Ipari folyamatok modellezése 


Az 1pari folyamatmodellezés fogalma rendkívül széles feladatkört takar. A konkrét gyakorlati esetekben a 
legkülönbözőbb jellegű és nehézségű feladatok merülhetnek fel ilyen címszó alatt. A megoldás néha egy 
egyszerű lineáris modell, máskor emberi szakértőket kell alkalmazni, akik ráadásul nem képesek tudásukat 
formálisan megfogalmazni. A neurális hálózatok alkalmazása ezen a területben alapvetően két esetben merül 
fel: 


e A bemenet és a kimenet közötti kapcsolat ismert, de olyan bonyolult, hogy jobban megéri csak a mérésekből 
szerzett bemenet-kimenet párokra támaszkodni, és egyszerűbb, közelítő modellt építeni. 


e A bemenet és a kimenet közötti összefüggés nem ismert. 


A bonyolult rendszerek modellezése a neuronhálók egyik legfontosabb alkalmazási területe. A modellezési 
problémák jelentős része azonban dinamikus rendszerekhez kapcsolódik, ezért a kérdést általánosabban a 
következő fejezetben tárgyaljuk. Az alábbiakban két konkrét feladat kapcsán néhány fontosabb tapasztalatot 
foglalunk össze. 


3.1. Gumigyártási folyamat modellezése RBF-fel 


A gumigyártás modellezése 1s ilyen , kemény diónak" számít. A folyamat számunkra érdekes része úgy indul, 
hogy az alapanyagokat egy olvasztó-préselő gépbe (ún. extruder-be) öntik. Az extruder a gumikeveréket 110- 
140 "C fokon megolvasztja, majd a masszát 70-140 bar nyomással egy fémmaszkon préseli keresztül. Az 
extruder elhagyása után a gumikeverék megszilárdul, és közben deformálódik. Az deformáció a fémmaszk 
alakjának, valamint egyéb paramétereknek (pl. extruder típusa, hőmérséklet, keverék sűrűsége) a bonyolult, 
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nemlineáris függvénye. A cél a fémmaszk megtervezése úgy, hogy a lehűlés és alakváltozás utáni gumiprofil 
minél közelebb legyen a kívánthoz. 


Mivel az extruder-t elhagyó anyag végső, szilárd formája egy nehezen megjósolható alakváltozás során alakul 
ki, minden új termék gyártásának megkezdése előtt szükség van egy több iterációból álló kísérletezési 
szakaszra. Elkészítik a fémmaszkot, felhelyezik az extruder-re, végeznek vele egy próbagyártást, lemérik a 
kapott gumiprofilt, majd a mérés eredménye alapján pontosabb maszkot próbálnak készíteni. Egy ilyen iteráció 
költséges, ráadásul 4-5 napot 15 igénybe vehet, ezért egyáltalán nem mindegy, hogy hány maszkfinomítással 
sikerül elérni a kívánt pontosságot. 


Az alkalmazottak, akik a kísérletezést végzik, teljesen hozzá vannak kötve ehhez a munkakörhöz (ami ráadásul 
unalmasnak számít). Mivel a , maszkfinomító" szakértelem csak lassan és elég heurisztikus módon szerezhető 
meg, ezen szakemberek betegsége vagy más céghez való távozása érzékenyen érintheti a gyárat. 


Rendkívül hasznos lenne tehát, ha sikerülne kellően pontosan modellezni a megszilárdulás folyamatát. Még 
közvetlenebbül használható lenne egy inverz modell, amely megadja, hogy milyen fémmaszk paraméterek 
vezetnek a kívánt gumiprofil kialakulásához. Ha létezne ilyen, akkor a szakembereknek a kísérletezési fázis 
során rendelkezésre állna egy értékes támpontot adó szakértői vélemény. Itt merül fel a neurális hálózatok 
alkalmazásának ötlete, mivel a neurális hálózatok képesek modellezni olyan bonyolult, nemlineáris 
kapcsolatokat, amelyek nehezen írhatók le hagyományos eszközökkel. 


Egy, a 90-es évek végén kifejlesztett neurális szakértői rendszerben radiális bázisfüggvényes (RBF) hálózattal 
próbálták megoldani a fent említett inverz modellezési feladatot [Pie99]. Az RBF hálózatok tanítására két 
, tiszta" megközelítés ismeretes. Az első megközelítés szerint a két réteg tanítása külön történik. A 
bázisfüggvény középpontokat és paramétereket egy klaszterező végeredménye alapján alakítják ki, majd a rejtett 
réteg súlyait rögzített bázisfüggvények mellett LMS algoritmussal tanítják. A második megközelítés szerint a 
hálózat összes paraméterét egyszerre tanítják, gradiens módszerrel. Az első megközelítés előnye a kis 
számításigény és a lokális minrmumoktól való mentesség. Az egyszerüűségért azonban pontosságcsökkenéssel 
mintavételezi sűrűbben a közelítendő függvényt a gyors változás helyein. Az ismertetett rendszerben olyan 
megközelítést alkalmaztak, amely egyrészt szabályozási feladatokra van specializálva, másrészt próbálja ötvözni 
a két tiszta tanítási módszer előnyeit úgy, hogy közben a hátrányokból minél kevesebbet tart meg. 


7.6. ábra - Az extruder működése, vázlatosan 
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Az alap RBF változatban a minimalizálandó mennyiség az átlagos négyzetes hiba. Szabályozási feladatok 
esetén viszont általában a maximális abszolút hiba minimalizálása a cél, ezért a szakértői rendszerben ezt 
használták kritériumfüggvényként. Egyébként azért választották ezt a hálózattípust, mivel RBF esetén a 
kritériumfüggvény ilyen irányú módosítása egyszetű és áttekinthető módon tehető meg. 


A tanítást hálónövesztős módszerrel végezték, a következő módon: minden iterációban megkeresték, hogy 
melyik tanító pontnál volt a legnagyobb az abszolút hiba. Ha a hiba meghaladott egy küszöböt, akkor 
beillesztettek a hálóba egy új rejtett neuront úgy, hogy az új bázisfüggvény középpontja a maximális hiba 
helyére essen. Az új bázisfüggvény szélességparamétereit a szomszédos bázisfüggvények alapján állították be. 
Ezután meg lehetett határozni az új neuronhoz tartozó súlyt úgy, hogy az új bázisfüggvény középpontjánál a 
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hiba nulla legyen (vagy újra lehetett tanítani az egész kimeneti réteget). (A megoldás — legalábbis céljait 
tekintve — hasonlít az 5. fejezetben ismertetett OLS eljárásra.) 


Konkrét gyakorlati feladatunk esetén a cél a fémmaszk alakjának meghatározása magasságértékek [£:, ..., gu] 
sorozataként az Íri, ..., r.] kívánt gumiprofilból (ami szintén magasságértékek sorozata) és a gumikeverék 
környező részeken található gumi magassága játszik szerepet. Ezért a gi meghatározásához csak a szomszédos 
területekhez tartozó [rix, ..., Fix] gumiprofil értékeket érdemes felhasználni. (Valójában az extruder 
működéséből adódóan a rés mentén nem egyenletes a nyomás, ezért az alakváltozás az i abszolút pozíciótól 15 
függ, de azt tapasztalták, hogy ez a hatás elhanyagolható.) 


A kutatás eredménye félsiker volt. Az elért pontosság arra még nem alkalmas, hogy kiiktassa a kísérletezési 
fázist a terméktervezésnél, de a kapott neurális modell segítheti, felgyorsíthatja a szakemberek munkáját. 
Érdekes tapasztalat, hogy az általános helyzetű elliptikus bázisfüggvények alkalmazása ennél a feladatnál 
jelentős javulást hozott a körszimmetrikus bázisfüggvények használatához képest. 


3.2. Acélgyártási folyamat modellezése 


A Linz-Donawitz (LD) konverteres technológiával végzett acélgyártási folyamat neurális hálós modellezése 15 
tipikus példája a neuronhálók ipari alkalmazásának. A konverteres acélgyártás az acélgyártási technológiák 
közül hatékonysága miatt az egyik legelterjedtebben alkalmazott eljárás. Az LD konverteres acélgyártás során 
egy nagy tartályban — ezt nevezik konverternek — történik a nyersvasból az acél készítése. Itt zajlanak le azok a 
fizikai és kémiai folyamatok, melynek során a kb. 490-os széntartalmú, mintegy 1400 C"-os folyékony 
nyersvasból kb. 0,0596 széntartalmú, mintegy 1670 C"-os acél készül, miközben a nyersvasban meglévő számos 
egyéb szennyezőanyag 1s kiég. Az eljárás hatékonysága abból ered, hogy a gyártási folyamathoz külső energiára 
nincs szükség, ugyanis a szén és a további szennyezőanyagok kiégetése hőtermelő folyamat. Így maga a kémiai 
folyamat biztosítja, hogy a véghőmérséklet magasabb lesz, mint a kunduló hőmérséklet. Az eljárás legfontosabb 
fázisa az ún. fúvatás, amikor a konverterben lévő olvadékra nagytisztaságú oxigént fúvatnak. A gyártási 
folyamat során a megfelelő minőségű acél elérése érdekében a nyersvason kívül hulladékvas és számos 
adalékanyag felhasználása szükséges. 


A gyártási folyamat főbb lépései a következők: 


1. A megfelelő összetevők betöltése a konverterbe. Ezt nevezik betétösszeállításnak. A konverterbe 
hulladékvas, folyékony nyersvas és a kémiai folyamatokat segítő adalékanyagok kerülnek. A betét 
összeállítása, alapvető fontosságú a legyártott acél minősége szempontjából. A magas hőmérsékletű nyersvas 
felolvasztja az eredetileg szilárd hulladékvasat 1s, így a konverterben olvadék alakul kt. 


2. Fúvatás. A fúvatás nagytisztaságú (tipikusan 99,590-os tisztaságú), nagynyomású oxigénnel történik az 
olvadék felett elhelyezkedő ún. lándzsa (vízhűtéses cső) segítségével. A fúvatás eredményeképp beindulnak a 
megfelelő kémiai és fizikai folyamatok, kiégnek a szennyezők és a felesleges szén, valamint az egész 
olvadék hőmérséklete megemelkedik. A fúvatás az acélgyártás lényegi fázisa, ennek eredményeképp alakul 
ki adott kémiai összetételű és hőmérsékletű olvadék, ami a további feldolgozás (pl. ötvözés, stb.) kunduló 
alapja. A fúvatás időtartama kb. 20-25 perc, mely során mérések végzésére nincs lehetőség. 


3. Hőfokmérés, próbavétel. A fúvatás befejeztével egy gyors kémiai elemzéssel és hőmérsékletméréssel történik 
az elkészült acél legfontosabb jellemzőinek meghatározása. 


4. Csapolás. 


Az alapfeladat a betét megfelelő összeállítása és a fúvatási paraméterek, alapvetően a fúvatásnál felhasznált 
oxigén mennyiségének meghatározása. Minthogy a technológiából adódóan a gyártási folyamat közben mérések 
elvégzésére nincs lehetőség, az acél minőségét csak a fúvatás végén lehet megállapítani. A végtermék minőségét 
elsősorban a széntartalom és hőmérséklet jellemzi, tehát ez az a két minőségjellemző paraméter, melyeknek 
megfelelően szűk tartományon belül kell lenniük. A végtermék minőségét — ha adott betétből indulunk ki — 
elsődlegesen a fúvatási fázis lezajlása és ezen belül ií5 a felhasznált oxigén mennyisége határozza meg. A 
megfelelő minőségű acél előállításának biztosításához tehát a felhasználandó oxigén mennyiségét kell 
meghatározni. 


Bár a végtermék összetételét és hőmérsékletét mind a kiunduló betétösszetétellel, mind a fúvatással 


befolyásolhatjuk, a feladat komplexitása és számos nem, vagy nehezen kézbentartható jelenség miatt a 
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betétösszeállítás és a fúvatási folyamat együttes optimalizálása nem járható út. Ezért a betét összeállítását 
adottnak vesszük (a valóságban általában ez a helyzet). A feladat tehát a betétösszeállítás többé-kevésbé pontos 
ismerete és a célul kitűzött kémiai összetétel és véghőmérséklet ismeretében a felhasználandó oxigén 
mennyiségének a meghatározása. 


Az adagolandó oxigén minél pontosabb meghatározása alapvető gazdasági érdek. Ha a fúvatásvégi paraméterek 


nem megfelelőek (nem megfelelő hőmérsékletű és/vagy karbontartalmú az acél), a minőséget jellemző 
paraméterek csak jelentős idő- és költségigényes korrekciós műveletekkel módosíthatók. 


7.7. ábra - Az előrejelzés, mint modellezési és inverz modellezési feladat. 
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A megoldandó feladat ennek megfelelően egy olyan tanácsadó rendszer létrehozása, mely a rendelkezésre álló 
adatok (kunduló  betétösszetétel, a konverter állapotjellemzői és a  célparaméterek: végkarbon és 
véghőmérséklet) alapján javaslatot ad a fúvatás során felhasználandó oxigén mennyiségére. Lényegében tehát 
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folyamatvezérlési feladatot kell megoldani, melynek elengedhetetlen feltétele a kérdéses folyamat valamilyen 
modelljének felállítása. A modell a vizsgálandó folyamat bemenetei és kimenetei közötti kapcsolat minél 
pontosabb reprodukálását kell, hogy megvalósítsa. A modell ismeretében hozható létre a fúvatási oxigénre 
javaslatot tevő előrejelző, amely valójában a folyamat inverz modellje, mint ahogy ez az 7.7 ábrán látható 
[Hor99]. Az inverz modell kimenete állítja elő a folyamat vezérlőjelét (az ábrán a folyamat modelljének 
vezérlőjelét), ami az adott feladatban a javasolt oxigén mennyisége. 


Egy folyamatmodell többféle megközelítésben is létrehozható. Lehet fizikai-kémiai modellt létrehozni, ahol a 
modell a rendszer felépítésének és működésének mechanizmusát 1s igyekszik minél pontosabban visszaadni, 
illetve készíthetünk viselkedési modellt, amikor csak az a cél, hogy a modell kívülről nézve minél inkább úgy 
viselkedjen, mint a modellezendő rendszer. Ilyenkor fekete doboz modellezésről beszélünk. Viselkedési vagy 
fekete doboz modell konstrukciójához bemeneti-kimeneti mintapontokra van szükségünk. 


Fekete doboz modell létrehozását két fő szempont indokolhatja. Lehetséges, hogy a modellezendő rendszerről 
nem áll rendelkezésünkre annyi információ, ami fizikai-kémiai modell létrehozását lehetővé tenné, de az 15 
lehet, hogy egy ilyen fizikai-kémiai modell létrehozása nagyságrendekkel bonyolultabb lenne, mint egy 
viselkedési modell felállítása. A konverteres acélgyártásnál valójában mindkét ok fennáll. Egyrészt a gyártási 
folyamat tényleges lezajlásáról nem szerezhető annyi információ, ami egy megfelelő pontosságú fizikai-kémiai 
modell létrehozását biztosítaná, másrészt, ha ilyen információ rendelkezésünkre is állna, akkor 15 túl komplex 
lenne a modellezési feladat. Ugyanakkor rendelkezésünkre állnak a gyártási folyamat során összegyűjtött 
bemeneti-kiemeneti mintapárok. Az adott probléma megoldásánál ezért a fekete doboz felállítása volt a cél, ahol 
a fő modellezési eszköz a neuronháló volt. (A neuronhálók rendszermodellezésre történő alkalmazásával a 8. 
fejezetben általánosabban 1s foglalkozunk.) 


Mint a gyakorlati modellezési feladatok többségében, a probléma megoldásának egyik kulcskérdése a megfelelő 
adatbázis létrehozása és alkalmazása. Ez egyrészt azt jelenti, hogy a problémateret kellő mértékben le kell 
fednünk tanítópontokkal, másrészt azt, hogy ezen tanító pontok kellő "megbízhatóságúak" kell legyenek, 
továbbá, hogy az adatokat megfelelő módon kell reprezentálnunk. Az ipari környezetből adódóan az 
acélgyártási folyamat leírására egy meglehetősen nagy, ugyanakkor pontatlan, zajos és hiányos adatbázis áll 
rendelkezésre. Ennek megfelelően a munka lényegi részét képezte az adatbázis megfelelő kialakítása, ahol az 
alábbi problémákat kell megoldani (itt csak az adott alkalmazási feladatban felmerült speciális problémákat 
említjük meg, az adatbázis kialakítással kapcsolatos általános szempontokat — melyek jórészt ennek a munkának 
a kapcsán merültek fel — a 13. fejezetben tárgyaljuk): 


e A túl nagy adatdimenzió által okozott problémák. 

e Az adatok "megbízhatóságának" vizsgálata. Zajos és torzított adatok kezelése. 
e A bemeneti adatok normalizálása. 

e Hiányos adatok kezelése, hiányzó adatok pótlása. 


Az adatbázis létrehozásának eredményeként egy kb. 4000 mintapontból álló adatkészlet állt elő (melynek kb. 
6090-a tanításra, 4090-a tesztelésre volt felhasználva), mely 30-dimenziós bemeneti és kétdimenziós kimeneti 
adatokat tartalmazott. Ennek az adatkészletnek a felhasználásával történt a neurális modellek létrehozása és 
tesztelése. Az alkalmazásnál különböző méretű MLP-k kerültek felhasználásra. A legjobb eredményt két rejtett 
rétegű hálóval sikerült elérni, ahol az első rejtett rétegben 10, a másodikban 5 neuron volt. 


A tesztkészleten történő kiértékelés szerint a neurális háló által javasolt oxigénmennyiség alapján az esetek 
mintegy 75-8090o-ában a legyártott acél kimeneti paraméterei az előírt toleranciasávon belül voltak, ami az adott 
problémát tekintve igen Jó eredmény. Meg kell azonban jegyezni, hogy a feladat komplexitása, a rendelkezésre 
álló viszonylag kisméretű mintakészlet és az adatok nagymértékű zajossága miatt, valamint abból adódóan, 
hogy ritkán speciális minőségű acél gyártására 15 szükség van, a feladat tisztán neurális hálózattal történő 
megoldása megfelelő minőségben nem lehetséges (a speciális minőségű gyártási esetekről nagyon kevés 
mintapont áll rendelkezésre, így ezen esetekre a neuronháló meglehetősen rossz eredményre képes csak). A 
ténylegesen kialakított modell ezért egy hibrid-neurális megközelítés eredményeként született, amely arra 15 
képes, hogy a mintapontokon túl, más formában (pl. szabályok formájában) rendelkezésre álló információt 1s fel 
tudjon használni. A hibrid-neurális rendszerek kialakításának néhány fontos szempontjával a 12. fejezet 
foglalkozik, a konverteres acélgyártási folyamat hibrid-neurális modellezésének részletei pedig a megfelelő 
irodalmakban megtalálhatók: [ Pat98], [Str98], [Hor99], [Pat00], [Ber01]. 
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3.3. Néhány egyéb alkalmazás 


Az előbb ismertetett problémákon kívül az elmúlt években számos érdekes és/vagy gyakorlatilag fontos 
alkalmazás született. Az érdekes problémák között kell megemlíteni néhány olyan, a 80-as évek végén, 90-es 
évek elején készült alkalmazást, melyek célja inkább a figyelemfelkeltés, mint az igazi gyakorlati alkalmazás 
volt, bár természetesen az elkészült rendszerek gyakorlati feladatok megoldására 15 használhatók. 


Az egyik első ilyen alkalmazás volt a NETtalk, amely egy angol szöveg-beszéd konverter [Sej87]. A hálót 
(MLP) egy olyan rendszerben alkalmazták, amely a bemenetére kerülő szöveget a rendszerben szintén meglévő 
beszéd szintézer segítségével alakította beszéddé. Ehhez az kellett, hogy a szöveg egyes karaktereihez olyan 
kódokat rendeljen egy neurális háló, mely kódok a beszédszintézer meghajtására alkalmasak. A teljes rendszer 
ezért két fő modulból áll: egy karakter-fonéma kód leképező neurális hálóból és egy hozzá kapcsolódó 
szintézerből. A megfelelő fonéma előállítása nem végezhető el környezetfüggetlen módon, ezért a karaktereket 
egymagukban nem dolgozhatja fel a neuronháló. A neuronháló bemenetére 7 egymást követő karakter bináris 
reprezentációja került, melyek közül a középsőnek megfelelő fonéma kód előállítása volt a neuronháló feladata. 
A leképezést egy 203 bemenetű 80 rejtett neuronnal felépülő 26 kimenetű hálónak tanították meg. Megemlítjük, 
hogy a NETtalk egy szabály alapú, hasonló célú és kereskedelmi forgalomban kapható rendszer, a DECtalk 
mintájára készült. A neurális megközelítés előnye a viszonylag rövid fejlesztési idő. A háló tanítása 
nagyságrendekkel rövidebb idő alatt megtörtént, mint a szabály alapú rendszer kifejlesztése. 


Ugyancsak nevezetes alkalmazás az autonóm autóvezető rendszer (autonomous land vehicle in a neural 
network, ALVINN), melyet Carnegie-Mellon Egyetemen fejlesztettek ki, és amely egy gépkocsivezető 
cselekvése alapján tanít meg egy neurális hálót az autóvezetésre [Pom91l]. A rendszer durva felbontású (30x32 
képpontos) videoképet és a hozzá tartozó, sofőr által beállított kormánybeállítást kapott bemenetként. A 
feladatra 5 rejtett neuronú, 30 kimenetű MLP-t alkalmaztak. A 30 kimenet 30 lehetséges kormánybeállítást 
jelentett. A hálót vagy 1 a 30-ból kódolású kívánt válasszal tanították, vagy a kívánt választ olyan Gauss jelként 
fogalmazták meg, melynek maximális értéke a kívánt kormánybeállítást képviselő neuronhoz került. A feladat 
nehézségét a kellő számú tanító kép (mintapont) létrehozása jelentette. A megfelelő mennyiségű tanítómintához 
(összerendelt kép és kormánybeállítás) a valóságosan felvett képek transzformált változatait 15 felhasználták, sőt 
a tanítókészletet az egyes tanító ciklusok során részben cserélték 15, hogy a háló ne alkalmazkodjon túlzottan 
egy adott tanítókészlethez. Közel 50 tanítási ciklus után, miközben a kocsit kb. 4 mérföld/óra sebességgel 
vezették a kijelölt úton, a háló nemcsak a megtanított környezetben, hanem attól eltérő úton, a tanítási 
körülményektől eltérő környezeti feltételek pl. más időjárási viszonyok között 1s képes volt a kocsi automatikus 
kormányozására mintegy 25 mérföld/óra max. sebességig. 


A neurális hálózatok alkalmazása olyan esetekben 15 felmerül, amikor a szokásostól jelentősen eltérő, extrém 
körülmények miatt a Jól bevált, hagyományos megoldás valamelyik infrastrukturális feltétele (pl. különböző 
mérőszenzorok megléte) nem, vagy csak nehezen biztosítható. Ez a helyzet például a kis teljesítményű (max. 15 
kW-os) szélturbinák esetén, amelyeknek egyik fő alkalmazási területe a nehezen megközelíthető helyek 
árammal való ellátása. 


Egy ilyen rendszer hatékony működtetéséhez a szélsebesség és a lapátvég-sebesség arányát (tip-speed ratio) 
lehetőleg konstans szinten kell tartani. Ez a generátorban található forgórész (ún. rotor) szögsebességének 
szabályozásával érhető el. A maximális energiakinyerést biztosító optimális szögsebesség a szélsebesség, és a 
pillanatnyilag leadott teljesítmény ismert függvénye. A hagyományos megközelítés szerint szélsebesség mérő 
szenzorokat helyeznének el a turbina környezetében, de ez az előbb említettek miatt költséges és nehezen 
karbantartható lenne. 


A Floridai Egyetemen e helyett neurális megoldást fejlesztettek ki [L105], amely szenzorok nélkül próbálja 
megbecsülni a szélsebességet a rotor szögsebességéből és a pillanatnyilag leadott teljesítményből. Konkrétan 2 
bemenetű, 5 rejtett neuronnal rendelkező, 1 kimenetű MLP-t használtak A tanításhoz 10.000 mintahármast 
Iszögsebesség, teljesítmény, szélsebesség] gyűjtöttek össze mérésekből. A neurális hálózat adaptivitását 
kihasználva a rendszert később olyan irányban 15 továbbfejlesztették, hogy képes legyen érzékelni, ha idővel 
megváltozik a maximális hatékonyságot biztosító tip-speed arány. A szélturbinát először szoftveres, majd 
hardwere-in-loop szimulátorban valósították meg. A teszteredmények azt mutatták, hogy a szélsebesség-becslős 
megoldás hatékonysága nem sokkal marad el a szenzorokkal elérhetőhöz képest. (Pl. az egyik kísérleti szélprofil 
maximumánál, egy 11 m/s-os széllökés közepén a rendszer 3.7 helyett 3.5 kW teljesítmény leadására volt 
képes.) 


Szintén érdekes példa a neurális hálózatok szélsőséges körülmények között történő alkalmazására a Sao Paolo-i 
Egyetemen kifejlesztett tengeri olajkút monitorozó rendszer [Sim00]. Egy olajkút megfelelő üzemeltetéséhez 
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rendszeresen mérni kell a hőmérsékletet és a nyomást a kút alján (ami néha jóval a tengerfenék alatt található). 
A problémát a mérési eredmények továbbítása jelenti. A hagyományos megközelítés szerint vezetékes átviteli 
közeget építenek ki a felszín és a kútfenék között, de ez a megoldás igen drága, és sérülékeny. A rádióhullámok 
ebben az esetben nehezen használhatók, mert a vízben rendkívül nagy az elnyelődés. Olcsó és robusztus 
alternatív megoldás az akusztikus adatátvitel használata, az acél olajszállító csövet használva átviteli közegként. 
A bináris adatok átvitele 2 különböző frekvencián történik, frekvenciamodulációs technika segítségével. A 
szokatlan átviteli közeg miatt persze számos probléma merül fel (pl. zaj, elnyelődés, ill. a csőelemek 
kapcsolódásánál többszörös visszaverődés, ill. nemlineáris torzulás), így a hagyományos demodulációs 
technikák nem alkalmazhatók. Az ismertetett megközelítés feladathoz igazított előfeldolgozást, és 
counterpropagation hálózatot [Hec89] használt". Az előfeldolgozás első része még nem feladat-specifikus: 
minden bit dekódolásánál meghatározzák a jelet tartalmazó időablakot, és mintavételezik a jelet. A neurális 
hálózatnál alkalmazott recepteket, stratégiákat neurális hálózat szimulátor program használatával fejlesztették 
ki, majd a legcélszerűbbnek bizonyult hálót C----ban leprogramozták. 


A rendszert laboratóriumban megépítették, és 100 méteres csővezetékkel tesztelték. A bemeneti jeleket 
szándékosan Gauss-zajjal torzították, hogy valamennyire felkészüljenek a laboratóriumitól eltérő, valós 
körülményekre. A vevő így a bitek 97,5 90-át dekódolta helyesen. 


A neuronhálókat számos egyéb ipari probléma megoldásánál 15 alkalmazzák. Az előbbiekben említett acélipari 
alkalmazáson túl számos további acélipari alkalmazásra találunk példát. [Hao04] pl. egy nagykohó neurális, 
illetve hibrid-neurális modellezéséről számol be, míg [/Zar00] az acélgyártásban alkalmazott hideghengerműben 
a hengerlési erő meghatározására szolgáló neurális megoldást ismertet. Egyéb alkalmazásokról szóló 
beszámolók a bőséges irodalomban találhatók. 


! A counterpropagation (CPN) hálózat egy olyan kétrétegű háló, melynek első rétege a bemeneti tér klaszterezését végzi egy Kohonen 
hálóval (Id. 11. fejezet), a kimeneti rétege pedig egy felügyelt tanítású lineáris réteg. Fő előnye a gyors tanulás. 
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8. fejezet - Időfüggő (szekvenciális) 
hálók 

Az eddig bemutatott hálók legfontosabb jellemzője, hogy a bemenetükre kerülő adatok és az ezekhez tartozó 
kívánt kimenetek közötti statikus leképezés megtanulására képesek. Számos olyan feladattal találkozunk 
azonban, amikor a statikus modell nem megfelelő, a bemeneti és a kimeneti adatok közötti kapcsolat az adatok 
sorrendjétől 1ís függ. Ilyenkor olyan hálókra van szükségünk, ahol a hálózat válasza nemcsak a pillanatnyi 
bemenettől, hanem a mintasorozat időben előbbi értékeitől is függ. Ilyen feladattal találkozunk, ha nemlineáris 
dinamikus rendszerek modellezését, irányítását kell megoldanunk, illetve olyan előrejelzési, Jjóslási 


problémáknál, ahol egy folyamat régebbi viselkedésének ismeretében kívánjuk megjósolni a folyamat 
viselkedésének további alakulását. 


Az időfüggő hálók a statikus hálókból származtatott olyan rendszerek, amelyek emlékezettel, memóriával 
rendelkeznek. Ez azt jelenti, hogy a hálózat kimenete nem csupán a pillanatnyi bemeneti értéktől, hanem 
régebbi bemeneti és/vagy a régebbi kimeneti értékektől 15 függ. 


Az időfüggő hálózatok általánosságban nemlineáris dinamikus viselkedést mutatnak, tehát mint nemlineáris 
dinamikus rendszermodellek tekinthetők. Ebben a megközelítésben az időfüggő hálók a lineáris dinamikus 
rendszermodellek nemlineáris általánosításaiként 15 származtathatók, illetve úgy, mint az általánosított 
nemlineáris regressziós feladat megoldására alkalmas architektúrák. 


Egy általános nemlineáris dinamikus rendszermodell által megvalósított be-kimeneti kapcsolat — diszkrét idejű 
rendszerek esetében — az alábbi általános formában adható meg: 


p(kj- fI0. pír] , (8.1) 


Az? (9. (x)) kapcsolat a modell struktúráját rögzíti, ahol " lk) az ún. regresszorvektor, k az időindex, 8 pedig 
a rendszer paramétereit összefoglaló vektor. A regresszorvektor feladata megadni, hogy a kimenet előállításában 
a modellezendő rendszer, folyamat milyen régebbi bemeneti és kimeneti adatait használjuk fel. 


A modell felállításával az a cél, hogy a modell y(4k) kimenete, valamely d (je) kívánt válasz (a modellezendő 
rendszer válasza) minél pontosabb közelítését adja meg egy adott kritérium értelmében (ld. még a 2. fejezetben 
említett modell-illesztési alapfeladatot). A modell általában tökéletesen nem fogja előállítani a kívánt választ; a 


modell kimenete és a kívánt válasz közötti különbséget, a hibát egy 2 (A) zaj folyamattal vehetjük figyelembe. 


díkj-ylkjtelk] (8.2) 


A modellezésnél arra törekszünk, hogy olyan regresszorvektort (e lr) ), paramétervektort ( 8 ) és nemlineáris 


leképezést (f) találjunk, amely alk valamilyen jellemzőjét, rendszerint az átlagos négyzetes értékét 
minimalizálja. 


A felmerülő kérdések részben megtalálhatók a lineáris modellezési feladatok körében is. A " ue) regresszort — 


tehát a modell struktúráját — lineáris esetben is meg kell választani; " e) megválasztása azonban lineáris esetben 
a feladatot teljesen specifikálja, hiszen ezt követően már csak a paraméterek meghatározása marad hátra. 
Nemlineáris modellezési feladatnál ezen kívül még f(.,.) megválasztásáról 15 gondoskodni kell. Amennyiben a 
nemlineáris dinamikus modellezési feladat megoldására neurális hálózatot használunk, a feladatmegoldás 
tipikusan ún. fekete doboz (black box) modellezési feladat. Fekete doboz modellezésnél a modell struktúrájáról 
nincs a priori ismeretünk, a feladatot pusztán a rendelkezésre álló összetartozó be-kimeneti adatok 
(adatszekvenciák) alapján kell megoldanunk. A (8.2) összefüggéssel kapcsolatban meg kell jegyezzük, hogy 
lineáris rendszerek modellezésénél ""! általában valóban a zajt jelenti, nemlineáris rendszereknél azonban a 
-ba beleértjük az ún. modellezési hibát 15, ami abból eredhet, hogy a nemlineáris modellünk struktúrája nem 
feltétlenül felel meg a modellezendő rendszer struktúrájának. 


A rendelkezésre álló adatokhoz illeszkedő nemlineáris dinamikus modell általában nem egyértelmű, tehát — 
hasonlóan a statikus regressziós feladatokhoz — itt 15 rosszul definiált (ill-posed) problémákkal állunk szemben. 
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Ugyanahhoz az adatkészlethez különböző struktúrájú, más nemlineáris függvényt, más paramétereket alkalmazó 
megoldások is találhatók. Sok esetben célszerű, ha nem a legáltalánosabb modellstruktúrát alkalmazzuk. A 
nemlineáris függvény lehetséges megválasztását 15 érdemes bizonyos függvényosztályra korlátozni, mivel így 
jobban kezelhető, könnyebben megtalálható modellt nyerhetünk. A nemlineáris dinamikus rendszer-modellezési 
feladat tehát jóval nehezebb a lineáris megfelelőjénél. Az alábbiakban mielőtt néhány általános neurális 
dinamikus struktúrával foglalkoznánk, előbb a nemlineáris rendszermodellek egyfajta csoportosítását tekintjük 
át. 


1. Regresszorválasztás, modellstruktúra választás 


A fekete doboz modellstruktúra választása egyrészt a modellstruktúra-osztály megválasztását, másrészt az 
osztályon belüli tényleges struktúra kijelölését jelenti. A struktúra-osztály rögzítésekor azt határozzuk meg, 
hogy a regresszor milyen argumentumokból áll. Beszélhetünk olyan rendszerről, ahol a regresszor csak a 
régebbi bemeneti értékekből áll, de olyan rendszerről 15, ahol a régebbi bemeneti értékek mellett figyelembe 
vehetjük a régebbi kimeneti értékeket is. A lineáris dinamikus rendszerek bemenet-kimenet reprezentáció 
(input-output representation) alapján történő csoportosításához [LJu99], [51095] hasonlóan nemlineáris 
dinamikus rendszereknél az alábbi főbb modellstruktúra-osztályok megkülönböztetése célszerű: 


e NFIR modellek, ahol a regresszor csak a régebbi bemeneteket tartalmazza: 


elk) -[r[4-11, xr(k—2],. . ., x [/— NT (8.3) 


Az NFIR modellek a lineáris véges impulzusválaszú (FIR) szűrők nemlineáris megfelelőjeként olyan 
előrecsatolt modellek, ahol az emlékezetet a bemenetek régebbi értékeinek tárolása biztosítja. 


e NARX modellek, ahol a regresszor mind a régebbi bemeneteket, mind a régebbi rendszerkimeneteket 
magában foglalja: 


(5) -[x(x-1).x(x- 2)... x(k- NI, d(k-1),d(k- 2)... .d(4- MI 8.4) 

A NARX modell a lineáris külső gerjesztéssel ellátott autoregresszív (ARX, Auto-Regressive with eXogenous 
inputs) modell nemlineáris megfelelője. Valójában a NARX modell 1s előrecsatolt struktúra annak ellenére, 
hogy a leképezésben a régebbi kimeneti értékek 15 szerepelnek bemenetként. A kimeneti értékek azonban nem a 


modell régebbi kimenetei, hanem a kívánt válasz, a modellezendő rendszer kimenetének régebbi értékei. Ezért 
ezt a modell-struktúrát szokás soros-párhuzamos (series-parallel) struktúrának 15 nevezni [Nar89]. 


e NOE modellek. Itt a regresszor a régebbi bemenetek mellett a modell régebbi kimeneteit 15 tartalmazza: 


ep (e) — elf 10 x(— 21 ax [0— N) ay (8-1). (8-2), (XM) (8.5) 


A NOE modell már igazi visszacsatolt rendszer, hiszen itt a kimenet pillanatnyi értékének meghatározásánál a 
modell-kimenet régebbi értékeit is felhasználjuk. A NOE elnevezés a lineáris OB (output error) struktúra 
elnevezéséből származik. A NOB struktúraosztályt a NARX modellnél használt soros-párhuzamos elnevezés 
mintájára párhuzamos (parallel) modell-osztálynak 1s szokás nevezni [Nar89]. 


. NARMAX modellek. A NARMAX modellek a NARX modellek olyan bővítései, ahol a regresszor a régebbi 
bemenetek és kívánt válaszok mellett a modellezési hiba régebbi értékeit 15 tartalmazza: 


o (e) -[x(k-1, a, x(p- N),d(r-1), (1), e(k-1)....2(k- 21 8.6) 


A hiba régebbi értékeinek figyelembevétele miatt ez 15 visszacsatolt modell annak ellenére, hogy a modell 
régebbi kimeneti értékei bemenetként nem szerepelnek. 


e NBJ modellek. A nemlineáris Box-Jenkins modelleknél a NOB modellhez hasonlóan a modell régebbi 
kimeneti értékeit csatoljuk vissza, továbbá kétfajta hiba régebbi értékeit 15 felhasználjuk: 


e (8) - xx 1) ex (—NW) ay (8-1)... (k- 1), 2(k-1),...e(k-D).e (R-1), 2 (k- KI (87) 
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e, [£-r1- d(k-r-y [4-ii ap [x-:ij definiált lk-i) értékeken kívül újabb hibaértékek is szerepelnek: 


-t egy olyan modell kimenetén nyerjük, ahol a (8.7) által megadott 
regresszorvektorban e és e, helyére nullákat írunk. 


A fenti modellosztályok mind bemenet-kimenet reprezentációt használnak, továbbá egy bemenetet és egy 
kimenetet tételeznek fel (single-input—single-output, SISO rendszerek). Kiterjesztésük több-bemenetüű—több- 
kimenetű rendszerekre viszonylag természetes módon megtörténhet. 


Rendszermodellezésnél a bemenet-kimenet reprezentációkon kívül gyakran alkalmazzuk az állapotváltozós 
leírást (state-space representation). Több-bemenetű-—több-kimenetű rendszert feltételezve ekkor a nemlineáris 
dinamikus kapcsolatot az alábbi formában adjuk meg: 


u(i) — frurk—1), xék—1), hb (k-Ii 
y[41-glurm,ba (d) (8.8) 


ahol u(k) az állapotvektor (melynek komponensei az állapotváltozók), x(k) a bemeneti vektor, f(.) a következő 
állapotot meghatározó nemlineáris vektorfüggvény, y(k) a nemlineáris dinamikus rendszer kimeneti vektora, g(.) 
a kimenetet meghatározó nemlineáris függvény, b:(k) és b-(k) pedig zajvektorok. 


Sok esetben a fenti általánosabb állapotváltozós kapcsolat helyett az alábbi egyszerűbbet tételezzük fel: 


u(ó - frurr-,xír-1m a hirr-1 
y(k) - Cuki -h (io (8.9) 


ahol C a kimenetet meghatározó mátrix. Ez utóbbi esetben a kimenetek a belső állapotok lineáris függvényei . 


A fenti modellosztályok eltérő szerepű és számú paramétert tartalmaznak. Az általános regressziós kapcsolatot 
megfogalmazó (8.1) összefüggésben § egy adott modellosztály összes paraméterét képviseli. 


A bemutatott reprezentációs lehetőségek közötti választás csak a modellstruktúra-osztály megválasztását jelenti. 
Egy konkrét feladatnál a modellosztályon belül a tényleges modellstruktúra megválasztására, tehát a modellben 
szereplő paraméterek számának a meghatározására 15 szükség van. Ez input-output reprezentációnál a 
regresszorvektorban a § paramétervektor komponensei számának, tehát a régebbi bemeneti minták és 
megfelelő esetben a régebbi kimeneti értékek és hibaértékek számának meghatározását jelenti. Nemlineáris 
dinamikus rendszerek modellezésénél — de lineáris rendszerek modellezésénél 15 — talán a legnehezebb feladat a 
modellstruktúra-osztály és a modell fokszámának, vagyis a paraméterek számának a meghatározása. A modell- 
struktúra megválasztásának szempontjait és a modell-fokszám meghatározásnak néhány fontos módszerét a 
fejezet későbbi részében foglaljuk össze röviden. 


2. Dinamikus neurális modellek 


A neurális dinamikus modellek kialakításának több útja lehet. A legkézenfekvőbb megoldás, ha egy eredetileg 
statikus neuronhálót dinamikus elemekkel egészítünk ki. A dinamikus elemek megjelenhetnek a statikus háló 
bemeneteinél, de a háló "belsejében" 15 [Ner93], [Dre05]. A nemlineáris statikus és a lineáris dinamikus hálók 
ötvözeteként létrehozott nemlineáris dinamikus rendszerekre további példát jelentenek azok a kaszkád 
hálózatok, ahol lineáris dinamikus és nemlineáris statikus rendszerek szerepelnek valamilyen sorrendben a 
jelútban. Ilyen rendszerek pl. a Wiener, a Hammerstein, illetve a Wiener-Hammerstein modellek [Bal00]. E 
speciális felépítésű "hálók" ugyan korlátozott modellező képességgel rendelkeznek, de tárgyalásuk az általános 
esetnél egyszerűbb lehet, és számos gyakorlati feladatnál a "valóság" megfelelő pontosságú modelljének 
bizonyulhatnak [Nar90], [Bou95], [Pin01]. 


8.1. ábra - Általános időfüggő neurális hálózat többdimenziós bemenet és egydimenziós 
kimenet mellett 


! Az és összefüggésben a rendszermodellezésnél általánosan használatos jelölésektől — ahol x(X) az állapotvektort jelöli — eltértünk. Ennek 
oka, hogy a könyv eddigi jelölésrendszerének megfelelően x-szel most is a bemenetet jelöljük. 
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több-bemenetű 
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Az időfüggés beépítésének triviális módja, ha a hálózat bemeneteinek számát megnöveljük és az egyes 
bemenetekre a tényleges be- és/vagy kimenőjelek késleltetett értékeit adjuk megfelelő késleltető láncokon 
(tapped delay line: TDL) keresztül (8.1 ábra). Az ábra valójában egy NOE modellstruktúrát mutat, de ebből a 
felépítésből egyszerűsítéssel vagy kis módosítással a többi bemenet-kimenet reprezentáción alapuló 
modellosztálynak megfelelő neurális architektúra 15 származtatható. Amennyiben csak az x bemenőjelnél 
alkalmazzuk a késleltető láncot és a háló nem tartalmaz visszacsatolást, a dinamikussá tett háló NFIR struktúrát 
valósít meg. Ha az ábra szerinti visszacsatolás 15 jelen van NOE, vagy párhuzamos modellt kapunk. A 
kimenetről történő visszacsatolás helyett a kívánt választ "csatolva vissza" NARX vagy soros-párhuzamos 
modellt nyerünk. 


8.2. ábra - Állapotváltozós modell neurális implementációja 


kimenet 
fs 


E ENNNET ! dl 
5 


nemlineáris hneáaris  ki- 
rejtett réteg "s.] meneti réteg 


aa es ei ear ea rem ál 


(kt1) 





Látható, hogy minden esetben valójában továbbra is statikus hálózattal van dolgunk, az időfüggő viselkedést a 
hálózat megfelelően képzett bemenetei biztosítják. Az 8.1 ábrán bemutatott általános háló-felépítés az input- 
output reprezentációnak felel meg. Hasonló általános neurális struktúrát adhatunk meg az állapotváltozós 
leíráshoz. Ezt mutatja a 8.2 ábra. 


Az előbbi ábrákon bemutatott megoldások gyakorlati alkalmazása a bemenetek számának esetleges 
nagymértékű növelése miatt nem mindig célszerű, bár az így kapott hálók általános időfüggő hálózatok 
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kialakítására alkalmasak. Más megoldásokkal nem a bemeneteken keresztül vezetünk be időfüggést, hanem a 
hálózat belső felépítését módosítjuk olyan módon, hogy az időfüggő viselkedést mutasson. 


8.3. ábra - Példa lokális visszacsatolásokra 


fő . li e —( ht k e ii ; : Í 
1.5 I "s, ha lk 1 ; 4. ; h i 





b söt 
bemenet 
az. XxX 
A ; 
jú § a 





bemenétiíréteg l.rejtettréteg  2.rejtettréteg — kimenetiréteg 


A belső felépítés módosítása jelentheti dinamikus, memóriával rendelkező neuronok alkalmazását (ld. 1.1. ábra), 
lineáris dinamikus rendszerek, lineáris szűrők beépítését a hálóba, illetve lokális visszacsatolások alkalmazását. 
A lokális visszacsatolás(oka)t tartalmazó hálók számos változatát dolgozták ki. A 8.3 ábrán néhány 
visszacsatolási lehetőségre mutatunk példát. 


A többrétegű perceptronnál a szokásos előrecsatoló összeköttetéseket csak vázlatosan jelöltük. Egy processzáló 
elem lehet önmagában visszacsatolt (a), de lehet az egy rétegen belüli processzáló elemek között oldalirányú 
kapcsolat (b), ill. kialakíthatunk visszacsatolást egy későbbi rétegről egy valamelyik előbbire 15 (c). 


A visszacsatolt hálózatok modellező képessége a csak előrecsatolást tartalmazó dinamikus hálózatokénál 
nagyobb, de használatuknál számos nehézség merül fel. Egyrészt a visszacsatolás miatt stabilitási problémák 
léphetnek fel, másrészt a hálózatok tanítása lényegesen bonyolultabb lehet. 


Az időfüggő hálózatokat, ha jel-szekvencia felismerésre, szekvencia reprodukálására és folytatására (jóslás, 
előrejelzés) vagy egy bemeneti szekvenciára kimeneti válasz-szekvencia generálására alkalmazzuk, szokás 
szekvenciális hálózatoknak 15 nevezni. (A visszacsatolt hálózatok egy másik csoportjánál a bemenetre kerülő 
minta hatására egy tranziens indul el, miközben a hálózat bemenete nem változik, és a tranziens lezajlása utáni 
állandósult állapothoz (egyensúlyi állapot) tartozó kimenetet tekintjük a hálózat válaszának. Ilyen pl. a Hopfield 
hálózat, mellyel nem itt, hanem a 11. fejezetben foglalkozunk.) 


Az időfüggő hálózatok és a statikus hálózatok közötti legjelentősebb különbség a hálózat válaszának minősítése 
és a hálózat tanítása szempontjából, hogy míg a statikus hálóknál egy bemeneti mintára adott kimeneti válasz 
önmagában értékelhető, addig az időfüggő hálózatok értékelése bemeneti szekvenciákra adott kimeneti 
szekvenciák alapján történhet csak. A hálózat viselkedése ezért általában egy adott időpillanathoz tartozó 
kimeneti hiba alapján nem minősíthető, hanem a kimeneti hiba valamely időintervallumra vett átlagának vagy 
összegének meghatározására van szükség, és azt kell vizsgálnunk, hogy ezen eredő hiba hogyan csökkenthető a 
hálózat paramétereimek megválasztásával. 


Ha az eddigiekhez hasonlóan a kimeneti pillanatnyi hibát elk) val jelöljük, akkor az eredő négyzetes hiba: 


PF 
kel , (8.10) 


ahol k most 1s a diszkrét időindexet, K pedig a háló működésének szempontjából fontos időablak méretét jelölt. 
A hálózat gradiens alapú eljárással történő tanításához tehát az eredő hibának a megfelelő súly vagy súlyvektor 
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dei 
9) Hy 





szerinti deriváltját I -t kell meghatározni. Az egyes hálózatoknál alkalmazott tanítóeljárások, a hálózat 
struktúrájából adódó eltéréseken kívül, abban 15 különböznek, hogy e deriváltak meghatározása hogyan történik, 
illetve, hogy a tanító eljárások a derivált pontos vagy közelítő meghatározásán alapulnak-e. 


Az eddigiekből látható, hogy dinamikus feladatra igen sokféle neuronháló architektúra alkalmazható. Bár e 
hálók többé-kevésbé besorolhatók valamely általános modellosztályba, a különböző hálók analízise, tanítási 
összefüggéseinek meghatározása mind-mind egyedi problémákat i15 felvet. A sokféle dinamikus neurális 
architektúra áttekintésére nincs módunk, a részletes bemutatástól pedig mindenképpen el kell tekintenünk. A 
továbbiakban ezért néhány, a gyakorlati alkalmazás szempontjából fontos háló-architektúrát választunk ki és 
csak ezek felépítését, tanítási összefüggéseit tárgyaljuk. Az érdeklődők a témakört részletesebben az igen bő 
irodalomból ismerhetik meg (ld. pl. [Gup03], [Dre05 ]). 


3. Előrecsatolt időfüggő hálózatok 


Az előrecsatolt időfüggő hálózatok jellemzője, hogy vagy a hálózat bemenetén vagy az egyes processzáló 
elemeket összekötő súlyok helyén súlyozott megcsapolásokkal rendelkező késleltető lánc szerepel. Ez valójában 
azt jelenti, hogy vagy a bemeneten vagy az egyes súlyok helyett FIR szűrőket építünk a hálózatba. Ebből adódik 
e hálózatok elnevezése 15: FIR-MLP, FIR-CMAC, stb. A hálózatok nem tartalmaznak visszacsatolást, a konkrét 
elnevezések 15 utalnak arra, hogy ezen hálózatok az NFIR modell-osztályba tartoznak. 


A következőkben előbb a hibavisszaterjesztéssel tanítható többrétegű perceptron kiterjesztésével kapott FIR - 
MLP hálót, majd a kiterjesztett bázisfüggvényes hálózatokat (FIR-RBF, FIR-CMAC) mutatjuk be. 


3.1. A FIR-MLP háló 


A FIR-MLP hálózat felépítését a 8.4 ábra mutatja. Látható, hogy ez a dinamikus struktúra egy olyan MLP 
hálózat, ahol minden súly helyett egy lineáris FIR szűrő szerepel. Ez alól csak az egyes neuronok eltolás (bias) 
bemenetei a kivételek, amelyeknél meghagyjuk a statikus kapcsolatot biztosító súlyértéket. Az ábrán azonban 
ezek az eltolás bemenetek a jobb áttekinthetőség érdekében nem szerepelnek. A struktúra előnye a bemeneti 
késleltető lánc alkalmazásával szemben, hogy miközben Itt a bemenetek számát nem növeltük meg, és ezáltal 
várhatóan nincs szükség a rejtett neuronok számának megnövelésére sem, az előrecsatolt dinamikus működést 
biztosítjuk. A szabad paraméterek száma természetesen egy hasonló méretű (hasonló neuronszámú) statikus 
MLP-hez képest megsokszorozódik. 


8.4. ábra - A FIR-MLP háló felépítése 
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3.1.1. A FIR-MLP háló tanítása 
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A hálózat tanításához először a kimeneti hiba (8.10) szerinti összefüggését kell felírni. Az eredő hiba a háló 
összes kimenetén értelmezhető, adott időpillanathoz tartozó négyzetes hibakomponensek mind a kimenetek, 
mind a K időablak szerinti összege (NM. a kimeneti réteg neuronjainak száma). Jelöljük ezt a hibát £7-tel. 


e - 5 5 gi k 
E BAD 


Egy adott súly módosításához ennek az eredő négyzetes hibának az adott súly szerinti deriváltját kell 
meghatározni. Célszerű azonban, ha közvetlenül egy összeköttetés-ágban szereplő FIR szűrő összes 
együtthatóját összefogó súlyvektor tanító összefüggését írjuk fel. 


Vezessük be ehhez a következő jelölést. Legyen 


; 
val ERGÓ SNS ] 
Ww s Hz FÉg larsen (ri 
ke] (8.12 


az l-edik réteg i-edik és az előző réteg j-edik processzáló eleme közötti szűrő együtthatóinak vektora. A vektor 


(8) pé r F r (4 y y .. r r fd 
felírásából látható, hogy a szűrőágban My egységnyi késleltetés és d Ül szűrőegyüttható van. Bár elvileg 


nincs akadálya, hogy az egyes szűrők eltérő számú késleltetést tartalmazzanak, ennek gyakorlati haszna nincs, 

ezért most 1s feltételezzük, hogy egy adott réteg összes neuronjának minden bemeneti szűrője azonos számú 
j , Mr 

késleltetéssel és ennek megfelelően azonos számú szűrő együtthatóval rendelkezik. Ezért d ös 


1—1,2,..., 5 


minden 


A és minden j-I ,2,. . ., N-re ( sa és N; az (/—1)-edik, illetve az /-edik réteg neurojainak a száma). 


dei 


) : j ; elaz 
Say gradiens meghatározása szükséges. A 


e ő-s 


(2) 
GW, 


A fentiek figyelembevételével a súlymódosító összefüggéshez a 


háló tanítási összefüggéseinek meghatározása többféle megközelítésben lehetséges. Egy lehetőség, ha a 
az (k] 


s b jr já d k2) jaj , [d d LAdTÓ 
radienst az egyes időpillanatokhoz tartozó Ég radiensek segítségével írtuk fel: 
g gy p ad gitseg J 


det a 85 (4) 
wry d (8.13) 

ea É-a [dei 
Itt tehát k , vagyis az eredő négyzetes hiba az egyes időpillanatokbeli négyzetes hibaértékek megfelelő 
időablakra vett összegét jelenti. E megközelítés szerint végezve a vizsgálatot valójában időben kiterítjük a 
hálózatot és így egy nagyobb, de statikus hálót kapunk, ami már a hagyományos hibavisszaterjesztéses 
algoritmussal tanítható. A kiterítés következtében kapott virtuális háló azonban igen nagyméretű 1s lehet a FIR 
szűrőkben található késleltető láncok méretétől függően, továbbá a virtuális háló struktúrája el fog térni a 
szokásos többrétegű perceptron felépítésétől: az egyes rétegek processzáló elemei nincsenek a következő réteg 
összes processzáló elemével összekötve. További eltérés, hogy a virtuális háló az időbeli kiterítés következtében 
jóval több súlyt tartalmaz, mint a fizikailag létező valóságos; egy valóságos súlynak a virtuális hálóban több 
megfelelője van, melyek a háló működésének különböző időpillanataihoz tartoznak és a kiterített hálóban más- 
más rétegben szerepelnek. A hagyományos hibavisszaterjesztéses algoritmus alkalmazásánál az azonos fizikai 
súly . különböző virtuális  megfelelőihöz eltérő  súlymódosító összefüggéseket kapunk, mivel a 
hibavisszaterjesztés útja a különböző virtuális megfelelőkig eltérő. Ennek ellenére csak egy fizikai súly létezik, 
tehát ezt különbözőképpen nem módosíthatjuk. A megoldás csak az lehet, hogy a különböző módon 
visszaterjesztett "hiba" figyelembevételével nyert súlymódosítások eredőjével kell módosítanunk a fizikai súly 
értékét, ami azt jelenti, hogy a megfelelő virtuális súlyok azonos mértékben és egyszerre módosulnak. 


E nehézségek miatt, különösen nagyobb rendszereknél az időbeli kiterítés alapján történő FIR-MLP tanítás — 
bár elvileg lehetséges — nem célszerű. A következőkben egy más megközelítést mutatunk be. 


3.1.2. Temporális hibavisszaterjesztéses eljárás 


A temporális hibavisszaterjesztéses (temporal back-propagation) eljárás a FIR-MLP háló tanítására egy 
hatékonyabb lehetőség [Wan90]. A kimeneti eredő hiba gradiense ugyanis a (8.13)-tól eltérően másféle 
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felbontásban is felírható (a temporális back-propagation eljárás származtatásánál a 8.4 ábra jelöléseit illetve az 
MLP tanításánál, a standard hibavisszaterjesztéses eljárásnál alkalmazott jelöléseket használjuk): 


de de! asM(k] 
ETT i 


öwb k as [de] öwW : (8.14) 





41 


Itt tehát nem a pillanatnyi négyzetes hiba adott súlyvektor szerinti gradiensét határozzuk meg először, amiből a 
megfelelő időablakra vonatkozó összegzéssel határozható meg az eredő gradiens, hanem az eredő hibának a 
megfelelő kimenet adott időpillanatbeli értéke szerinti parciális deriváltján keresztül kapjuk meg az eredő 
gradienst. Vegyük észre, hogy 


ae [ri de ask] 


övÍ? "a:PTH ah (8.15) 


vagyis bár (8.13) és (8.14) egyenlők, adott k időindexhez tartozó komponenseikre az egyenlőség már nem áll 
fenn. Megmutatható, hogy ez utóbbi megközelítést választva a FIR-többrétegű perceptron tanítása a standard BP 
eljáráshoz hasonlóan történhet, vagyis a hibavisszaterjesztés itt ís a jel előreterjesztését végző hálózathoz 
hasonló hálózaton, most tehát FIR szűrőkön keresztül történik. 


A (8.14) szerinti felbontás alapján a következő súlymódosító összefüggést nyerjük: 


szl(seljz lee a 22 BET 

d 5, [de GW, . (8.16) 

A (8.16)-nak megfelelő súlymódosítás természetesen nem pontosan az igazi gradiens szerint halad a megoldás 
térben, hiszen egy módosító lépésben az eredő teljes hiba gradiense helyett egy gradiens-komponenssel 
dolgozunk. Nem túl nagyra választva azonban u értékét, a súlymódosítás közel a valódi gradiensnek 
megfelelően történik. Megjegyezzük azonban, hogy a gradiens-komponens nem csak egy időpillanatbeli hiba 
alapján számítódik, hiszen a súlymódosításhoz "" megfelelő deriváltját használjuk fel. 





ask 
54 LED az alól (je) 
Mivel a standard hibavisszaterjesztéses algoritmushoz hasonlóan kéz , továbbá, ha most 1s 
lar 
ép" (k1--— ín 
285" [k) 


használjuk a jelölést, akkor egy adott súly helyén található szűrőegyütthatókból álló vektor 
módosítására az alábbi, a statikus MLP tanításával formailag azonos összefüggést kapjuk: 


(ea wir) ez ző (Ra (e) (817) 


A visszaterjesztett, általánosított hiba (valójában a kimeneti négyzetes hibának egy adott neuron lineáris 
kimenete szerinti érzékenysége) meghatározása attól függ, hogy az adott neuron melyik rétegben található. 


óp (e) - ő (e) 


A kimeneti réteg esetén egyszerűen meghatározható, hiszen: 


1 88 
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51 0 ög 

(02 as (x) 
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ÖV, [4 ös [4 


- csövi ráta 
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ja 


(8.18) 


Így a kimeneti réteg neuronjainál a súlyok módosítására formálisan a standard back-propagation eljárás kimeneti 
rétegre vonatkozó összefüggését kapjuk: 


will (ral) - wir" (4) t2HET e [eg] xp UE) . (8.19) 
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2 wi5 ; 5 baz a ál ; kájtő ak sali n 
Az egyetlen különbség, hogy itt "§ nem a kimeneti réteg összes SÚ [2 [ej álló súlyvektor, hanem a megfelelő 


szűrőág együtthatóiból álló, (8.12) által definiált vektor. Ugyancsak nem az L-edik réteg teljes bemeneti 
vektora, hanem minden kimeneti neuron j-edik szűrőágában a késleltetett bemenetekből képezett vektor: 


xln (4) Mi Bu gas [d-1],..., xy - mó] (8.20) 


Ez a vektor természetesen megegyezik az előző réteg j-edik neuronjának késleltetett kimeneteiből képezett 
vektorral. 


Az adott szűrő tehát 9" késleltető tagot tartalmaz, és a szűrő kimenetét a 


d ÉJ 
zát[4e1 Bs wir xrt(k] ME BEM — pr) 
§ 4 fj tr 

7 , (8.21) 


. . , , (4) , [d , . ri" , [d 
kapcsolat adja meg. A rejtett rétegeknél 65914) meghatározásában a statikus hálónál származtatott 


hibavisszaterjesztéses algoritmushoz hasonlóan szerepet játszik az összes olyan neuron, mely összeköttetésben 


van az /-edik réteg i-edik neuronjának kimenetével, vagyis az (/-4-1)-edik réteg összes neuronja. A FIR szűrőben 
. i kajás 8 ; s 8 JE szi ; 
lévő késleltető lánc miatt azonban itt az időt is figyelembe kell venni. Ugyanis " ik) a következő rétegbeli 


neuronok kimeneteinek nemcsak a k-adik időpillanatbeli értékét, hanem több, a k-adikat követő időpillanatbeli 
értékét 15 befolyásolja. 


[d [2] 
Mivel fa teljes négyzetes hiba " (e) szerinti deriváltja, ezt az időfüggést nem hagyhatjuk figyelmen kívül. 


(4) § yr r yr yr r 
a (ki meghatározása most 15 a láncszabály alkalmazásával lehetséges: 


ij de! aló 


TU EEKESGE HO] (8.22) 


819 (e) a - 





Itt t szintén diszkrét időindex, és azokat az időpillanatokat jelöli, amelyekben az (/--1)-edik réteg kimenetei 


je r ú§; jei eáöll a § r hé . Fal hd (8) § gú ő .. .. .. , di 
függnek az /-edik réteg i-edik neuronjának lineáris kimenetétől, " (k) tól. Mivel teljesen összekötött hálót 
tételezünk föl, egy adott réteg minden kimenete kapcsolódik a következő réteg összes neuronjához. Ebből 
adódóan m végigfut az 1, ..., Na. értékeken. 


a Are m 
A (8.22) kifejezés első tényezőjét nézve azonnal látható, hogy ös (8) 


írva: 


37 gli ír 
. A második tényezőt tovább 


aira (F) j As (ra) (§) gy jx) . ös (e) SÍR (g 8 p sr) 
ENATSÉSET TS É TS TÉR . (8.23) 


[HI . , : 
Az egyenlet tovább alakításához figyelembe kell vennünk "" 1) keletkezését. Ez az (11-1)-edik réteg m-edik 
neuronjának lineáris kimenete, amit nyilvánvalóan a neuron bemenetére csatlakozó szűrők kimeneteinek 
összegeként kapunk: 


sz (r- ze [t 
Ja (8.24) 
(144) 
ahol Zv 18) az (1-1)-edik réteg m-edik neuronja j-edik bemeneti szűrőágának kimenete: 


eg) care) g25) 


[9 e NNNNETYNNTNT j séjtib SA a ag: já gdégs 
mt (I a j-edik szürőág bemenetére kerülő késleltetett értékekből álló vektor: 


rkal b Ká ráta E ker E ER Tr UT 


. (8.26) 
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Egy neuron bemenetén annyi sz ,("Hápgr"!, ahány neuron van az előző rétegben. A (8.23) összefüggésben az i- 


edik szűrőág szerepel, ugyanis a neuron (az (I-t 1)-edik réteg m-edik neuronja) bemeneti szűrői közül 
csak az i-edikre jut. Ennek kimenete: 


a FA) 


zt zi (1-p) 
7 , (8.27) 


melynek felhasználásával: 


as ír ő szí (§) c agl) 


gr (te) gyik , (8.28) 








miH 


ha k-t-p. Figyelembe véve, hogy az (l--1)-edik réteg minden neuronjának szűrőiben ; egységnyi késleltetés 


: ús. fi j ő (4) 4 gi B 
van, vagyis a szűrőegyütthatók száma  "t!, (8.28)-ra a következőt kapjuk: 


MENÜ [ al. ma Dét-keá 
ENDTTET mab 
ay; [dei ga egyébként . (8.29) 


689 (rx) 


Ennek figyelembevételével a rejtett rétegre vonatkozó -ra 


HŰ a 
öle (pe) — er (sl (re) adá d LINA 
4 [2 2 (8.30) 


adódik. Alkalmazva a p—t-—k jelölést 


FEL NT? 


S) AGY ZD eat) 


rn pr 


— fil w(rAT SA fg 
NA) EVENTE gap 


ahol 


aal) - Bea 41), sző e (8.32) 


Összefoglalva: 


ep (re) et( s (d). ha 1-L, vagyis a kimeneti rétegnél 
ép (ki 


ai [s [de )] ER költi : át, [ie]  arejtettrétegeknél 
m (8.33) 


[d 
A (8.31) és a (8.32) összefüggésekből viszont látható, hogy 90 meghatározásához a rejtett rétegnél olyan 


szűrő szükséges, amelynek együtthatói a megfelelő előrevezető ág szűrőegyütthatói, a szűrt értékek pedig 
bséssgá EE TT szi ki 4) köt szöszi a nike s ől KENE ; jápy 
jövőbeli ön ktn) értékek ( tszkssgagítéss sss gA súlymódosítást meghatározó összefüggés tehát nem kauzális. 


A számítás kauzálissá tehető, ha a hálózat megfelelő pontjain alkalmas késleltető fokozatokat iktatunk be. A 
késleltetések közbeiktatása azt eredményezi, hogy a súlyvektorok módosításához csak az aktuális és a korábbi 
hibák ismerete szükséges. 


A kimeneti réteg súlyvektorainak módosítása a fenti összefüggések szerint történhet, hiszen ott eddig sem 
.. . 71" r fir o 4. 4 . r , re r . , . . , [/] 
merült föl nem kauzális számítási igény. A rejtett rétegek számítása pedig az alábbiak szerint lehetséges: ": (k) 


tú 5 északa et , . elö. a 
helyett a ő." (k—M) visszaterjesztett "hibát" határozzuk meg, tehát a k indexet (k—M"")-re cseréljük és ezzel a 
visszaterjesztett hibával határozzuk meg a rejtett réteg súlyvektorainak módosítását. Azonban a (8.17) 


. . tá [d er (8 . (A .. , . rr . 
összefüggés szerinti súlymódosításhoz "" (k) helyett is "" (k—M"") szükséges, vagyis a megfelelő bemeneti 
vektorokat tárolni kell. 
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Összefoglalva: a kauzális számítás a következő összefüggések alapján végezhető: 


— a kimeneti réteg i-edik neuronjához vezető súlyvektoroknál: 


med (kel) we) (x) 2 ző (rja (ke) (8.34) 
ahol 
deák LK (8.35) 


— az (-edik (rejtett) réteg i-edik neuronjánál: 


wet (fest) a wfd(x) 26 (k— MV] at (k- MI] g 36) 


ahol 


ár [4- meta ts [4 ar [8 — ee ag 
CáÁK a al 06 E ja a ES 


és 


OT Et a [ő gel e see TE] (8.38) 


Ha a hálóban több rejtett réteg található, akkor a fenti összefüggések a kimenethez legközelebbi rejtett rétegre 
vonatkoznak, a kimenettől egyre távolabbi rejtett rétegeknél az indexeltolás egyre nagyobb mértékű, a FIR szűrő 
késleltető-láncok hosszának összege kell legyen. 


A fenti összefüggések azt mutatják, hogy a FIR-MLP hálózat temporális hibavisszaterjesztő tanításánál a 
hibavisszaterjesztő hálózat felépítése az előreterjesztő hálózatstruktúrához hasonló: a visszaterjesztett 
általánosított hiba a megfelelő előreterjesztő ágakban lévő szűrőkön keresztül Jut az egyre előbbi rétegekhez. A 
visszaterjesztő hálózatnál tehát itt 15 megtaláljuk a klasszikus statikus MLP hálózatnál származtatott BP eljárás 
reciprok voltát, a hálózat eredeti struktúrája 15 megmaradt szemben az időbeli kiterítés módszerének 
alkalmazásával. 


A FIR-MLP háló képességei igen kedvezőnek bizonyultak idősor modellezési feladatoknál, továbbá nemlineáris 
dinamikus rendszerek modellezésénél, identifikációjánál [Wan94]. 


Megjegyezzük, hogy a FIR-MLP struktúrához némileg hasonló az ún. késleltetéses neuronháló (Time Delay 
Neural Network, TDNN), melyet elsődlegesen beszédjelek osztályozására dolgoztak ki [Lan88], [Wai89]. A 
TDNN nem szűrőket alkalmaz az MLP súlyai helyén, hanem az egyes neuronokat többszörözi meg úgy, hogy az 
egyes ismétlések eltérő időpillanatbeli értékekkel dolgoznak. A rétegek között nem teljes az összeköttetési 
rendszer. Egy későbbi (pl. rejtett) réteg adott időpillanathoz tartozó minden neuronja az előbbi (pl. bemeneti) 
réteg neuronjainak (a bemeneteknek) egy keskeny idősávhoz tartozó neuron-másolataival (értékeivel) van 
összeköttetésben mégpedig úgy, hogy az eltérő időpillanatokhoz eltérő idősávok tartoznak, miközben az eltérő 
időpillanatokhoz tartozó neuron-másolatok azonos súlyokkal rendelkeznek. 


3.2. Egyéb NFIR hálóstruktúrák 


A FIR-MLP háló alkalmazásánál nehézséget jelent, hogy e hálózatok tanítása az amúgy 1s lassan tanuló BP 
hálózatok tanításához képest is lassú. Ezért itt különös jelentősége van olyan hálók alkalmazásának, ahol a 
tanítható rétegek száma kicsi, lehetőleg egy. Ilyen lehetőséget jelentenek, ha a bázisfüggvényes hálókat, pl. az 
RBF-et vagy a CMAC-t terjesztjük ki. Így kaphatjuk a FIR-RBE, ill. a FIR-CMAC hálót [Dun93a], [Dun93b], 
melyek felépítése a ábrán látható. Mind az RBF, mind a CMAC hálózat fő jellemzője, hogy csak egy tanítható 
réteget tartalmaznak, és ez a tanítható réteg egyben a kimeneti réteg 15. Ha tehát e réteg súlyait helyettesítjük 
FIR szűrőkkel, akkor ennek tanítása során egyrészt nem merülnek fel kauzalitási problémák, másrészt nincs 
szükség több rétegen keresztül hibavisszaterjesztésre, ami a tanítás gyorsaságát biztosítja. E hálók kimeneti 
rétegének FIR együtthatóit (súlyvektorait) egyébként a FIR-MLP háló kimeneti rétegének tanításával 
megegyező módon taníthatjuk ((8.19) összefüggés) azzal a megjegyzéssel, hogy mivel e hálók kimeneti rétege 
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lineáris, még a szigmoid deriváltra sincs szükség. Tehát az (8.17) általános súlymódosító összefüggésben 
ő, [4j- e, (4) 


Dinamikus működésre képes kiterjesztést nemcsak a klasszikus neuronhálóknál alkalmazhatunk, hanem a kernel 
gépeknél 15. Mind az SVM, mind az LS-SVM és a ridge regresszió 15 felhasználhatók dinamikus feladatok 
megoldására. A kiterjesztés természetes módja, ha a 8.5 ábrának megfelelő architektúrában a statikus háló egy 
megfelelő kernel gép [Muk97], [Mül97], IRal04]. Ebben az esetben a dinamikus célra történő alkalmazás annyit 
jelent, hogy az aktuálisan használt regresszornak megfelelően kell a kernel gép bemeneti vektorait előállítani. 
Megjegyezzük, hogy míg egy klasszikus hálónál (MLP, CMAC, stb.) a bemeneti dimenzió késleltetések miatti 
növelése jelentősen nehezítheti a dinamikus háló konstrukcióját, addig a kernel gépeknél a kernel trükknek 
köszönhetően ez a hátrányos hatás nem jelentkezik, hiszen a kernel mátrix méretét nem a bemenetek 
dimenziója, hanem a mintapontok száma határozza meg. 


8.5. ábra - A FIR-CMAC háló 


4 (KK) 
FT FIR szűrő 


(0-(K) 
séták 
a hálózat első. 

rögzített nem - 


lineáris 


leképezést meg- 


valósító retege 


Prlk) 


FIR szűrő 





4. Visszacsatolt (rekurzív) hálózatok 


Az előzőekben láttuk, hogy a dinamikus hálók az előrecsatolt struktúrákon kívül különféle visszacsatolt 
struktúrákkal 15 létrehozhatók. Sőt a visszacsatolt struktúra-osztályon belül tulajdonképpen lényegesen több 
lehetőségünk van konkrét visszacsatolt háló-architektúrák konstrukciójára. 


A visszacsatolt architektúrák vizsgálatának, — a stabilitási kérdések vizsgálatán túl — az egyik legnehezebb, a 
háló tanításával 15 összefüggő kérdése, hogy miként oldjuk meg az időkezelést. A következőkben a rekurzív 
hálózatok két különböző tárgyalási megközelítésével foglalkozunk, ahol az időkezelés alapvetően eltérő módon 
történik. Az egyik megközelítés — hasonlóan az előrecsatolt időfüggő hálózatoknál alkalmazható eljáráshoz — a 
hálózat működésének időbeli kiterítésén alapul (back-propagation through time, BPTT) [Bea94], ahol a kiterített 
hálózat a standard statikus hibavisszaterjesztéses eljárással tanítható; a másik megközelítés esetén a tanítás a 
pillanatnyi gradiens felhasználásával lehetséges. Minthogy ez esetben minden lépésben végzünk tanítást, az 
eljárást valós idejű rekurzív tanításnak (real-time recurrent learning, RTRL) 15 nevezik. 


4.1. Rekurzív háló időbeli kiterítése 


A rekurzív háló időbeli kiterítése egy olyan módszer, amely lehetővé teszi, hogy egy visszacsatolt háló 
tanítására a hagyományos hibavisszaterjesztéses algoritmust alkalmazzuk [Rum$6]. Minden visszacsatolásokat 
tartalmazó háló megfeleltethető egy tisztán előrecsatolt hálónak olyan módon, hogy az egyes processzáló 
elemek egymást követő időpillanatokbeli viselkedését egy processzáló elem-sorozattal helyettesítjük. E sorozat 
egyes elemei tehát ugyanannak a processzáló elemnek eltérő időpillanatokhoz tartozó állapotait reprezentálják, 
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mintegy kiterítve a visszacsatolt hálózat működését az időben. A módszert, amely kisebb hálózatoknál jól 
alkalmazható, egy egyszerű példán keresztül mutatjuk be. 


Legyen egy két processzáló elemből felépülő, teljesen visszacsatolt hálózatunk (8.6 (a) ábra). Az időbeli 
kiterítés eredményeképpen egy többrétegű, előrecsatolt hálót nyerünk (8.6 (b) ábra), amelynek minden egyes 
rétege egy-egy időpillanathoz tartozik (k-1,2,...). A háló sajátossága, hogy bár (az időablak méretétől függően) 
sok réteget és ennek megfelelő számú súlyt tartalmaz, a különböző rétegekhez tartozó súlyok azonos értékűek, 
hiszen fizikailag azonos súlyokról van szó. 


Az előrecsatolt háló a standard hibavisszaterjesztéses eljárással tanítható azzal az eltéréssel, hogy minden 
lépésben nem módosíthatjuk a súlyokat, és a fizikai azonosság folytán a különböző rétegekbeli súlyokat sem 
módosíthatjuk egymástól függetlenül. Az egyes időpillanatokhoz tartozó kívánt válaszok azonban összevethetők 
a háló megfelelő időpillanatbeli tényleges kimenetével, így lépésenként meghatározható a hiba. A lépésenkénti 
hiba a kiterített hálónál rétegenkénti hibát jelent, tehát most hiba nem csak az utolsó réteg kimenetén, hanem 
minden réteg kimenetén megadható. A súlymódosításhoz ezeket a hibákat kell a keletkezési helyüknek 
megfelelő rétegtől visszaterjeszteni. Szemben azonban a normál hibavisszaterjesztéses eljárással, ahol az egyes 
visszaterjesztések eredményeképpen eltérő súlyok módosítását végezzük, itt ugyanazon súlyokról van szó. Ezért 
a súlyok módosítása az összes rétegen csak egyszerre és azonos mértékben lehetséges. A szokásos eljárás, hogy 
a visszaterjesztésekből származó súlymódosítás-értékeket összegezzük, és az eredménnyel módosítjuk a 
súlyokat: az azonos indexű súlyokat egyformán, bármely rétegben 1s találhatók. 


8.6. ábra - Egy két processzáló elemből álló teljesen visszacsatolt hálózat (a), és időben 
kiterített előrecsatolt megfelelője (BPTT) (b). 


xíl) x(2) x( 3) 





s 


(1) v(24) v(3]) (4) 


a.) hb.) 


Az eljárás fő hátránya a viszonylag nagy számítás- és tárolási kapacitás-igény. Az eredeti háló-méret 
annyiszorosával kell ugyanis dolgoznunk, ahány időlépésig kiterítettük a hálót. Természetesen a processzáló 
elemek többszörözése csak a tanítási fázisban szükséges, a megtanított hálót már mint rekurzív hálót 
működtetjük. További hátrány, hogy a hálózat valós időben nem tanítható, az egyes súlykorrekciók mindig az 
időablaknak megfelelő számú lépés után végezhetők el. 


8.1 példa 


A következőkben a rekurzív háló időbeli kiterítésének egy klasszikus alkalmazási példáját mutatjuk be. A 
megoldandó feladat része annak a példasorozatnak, amelyet Bernard Widrow és munkatársai dolgoztak ki annak 
bemutatására, hogy különböző egyszerűbb irányítási feladatokat hogyan lehet neuronhálóval megoldanit. 
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A megoldandó feladat, hogy egy pótkocsis teherautót adott kezdeti pozícióból hátramenetben adott 
végpozícióba juttassunk, mégpedig úgy, hogy az autó kormányát egy neurális kontroller vezérli. Az autótolatós 
feladat (truck backer-upper problem) a 8.7 ábrán követhető INgu89]. Az ábrán az [x,y] pont jelöli a pótkocsi 
kezdeti referencia pontját. Ebből a pontból kell kizárólag hátramenetben eljuttatni az autót az [0,0] koordinátájú 
pontba (az ábrán szaggatott vonallal jelzett pozíció), azt 15 biztosítva, hogy a végpozícióban legalább a pótkocsi 
álljon az x tengely irányában (a végpozícióban a 8, szög legyen nulla). 


8.7. ábra - Az autótolatós feladat vázlata 


És 1 ] pl: 2 


[o] 





A kontroller bemenetként a kiinduló, illetve az aktuális pozíció paramétereit kapja XxX—[Xx5, 9. x..y.0., 0)", ahol xy, 
a vezetőfülke pozíciója és 8, a vezetőfülke szöge. A kontroller feladata, hogy a kormányt a megfelelő szögbe 
állítsa be, vagyis 8, értékét kell, hogy meghatározza. Feltételezzük, hogy a teherautó elemi tolató lépéseket tesz, 
és egy elemi lépés alatt a kormány helyzete rögzített. Egy elemi lépés tehát adott kunduló pozícióból egy 
következő pozíciót eredményez. Az eredeti feladat-megfogalmazásban egy autó-pozíció jellemzésére a fenti 
hatelemű x vektor szolgált. 


A kontroller létrehozásához előbb a kocsi modelljét kell létrehozni. Egy neurális modellhez egy nyolc-bemenetű 
(a pozíciót megadó hat állapotjellemző, a kormány-beállítás szöge és a szokásos eltolásérték (bias)), hat- 
kimenetű hálóra van szükség. A kocsi modelljének birtokában már létrehozható a kontroller-modell együttes 
(8.8 ábra). A kontroller feladata, hogy az x(£) pillanatnyi állapot alapján meghatározza a következő lépésben 
szükséges 0, kormánybeállítást, a modell pedig a pillanatnyi állapot és a kormányszög alapján meghatározza az 
x(kt1) következő állapotot. A következő lépésnél ez képezi a kiinduló állapotot, tehát x(k--1)-et egy elemi 
késleltetés közbeiktatásával vissza kell csatolni a kontroller bemenetére. A teljes elrendezés egy olyan 
visszacsatolt hálózat, melyben a modell egy már megtanított fix hálózat, a kontroller pedig egy olyan háló, 
melyet még meg kell tanítani a megfelelő működésre. A tanítás az időbeli kiterítés elvét alkalmazva, tehát BPTT 
megközelítésben lehetséges. 


Ha K időlépésig működtetjük a tanításnál a modell-kontroller együttest, akkor az időbeli kiterítés szerint a fenti 
elrendezést K-szor meg kell ismételni, ahogy ezt a 8.9 ábra mutatja. Az ábrán a C-vel jelölt blokkok jelentik a 
kontrollert az M-mel jelöltek pedig a modellt. 


A BPTT itteni alkalmazása csak annyiban tér el az általános megoldástól, hogy míg az általános esetben minden 
lépésben, az autótolatós feladatnál csak az utolsó, K-adik lépésben tudunk hibát meghatározni. Ezt kell 
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visszaterjeszteni a teljes láncon. A súlymódosítás tényleges elvégzése az időbeli kiterítés elvének bemutatásánál 
mondottak figyelembevételével lehetséges. 


8.8. ábra - A modell-kontroller együttes. Az ábrán A egylépéses késleltetést jelöl. 


neurális 
kontroller 


neurális modell 





A kontroller tanítása úgy történik, hogy egy kezdeti helyzetből indulva megteszünk K tolató lépést, majd 
meghatározzuk a végpozíció hibáját. Ezt a hibát visszaterjesztve a teljes láncon egy tolatási szekvenciához 
tartozó súlymódosítás elvégezhető. Kellő számú tolatási szekvenciával történő tanítás után a háló adott 
tartományon belül bármely kezdeti helyzetből képes a kocsit a végpozícióba vezérelni. 


8.9. ábra - A BPTT megközelítés alkalmazása az autótolatós feladatra 





A 8.10 ábra a feladat bonyolultabb változatának egy tipikus eredményét mutatja [Wid90b]. A bonyolultabb 
változatban a vezetőfülke mögött két pótkocsi van. 


8.10. ábra - A két pótkocsis teherautó tolatási feladat egy tipikus eredménye 
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4.2. Rekurzív hálók tanítása pillanatnyi gradiens alapján 
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Az alábbiakban olyan, visszacsatolt háló-architektúrákra alkalmazható tanulási eljárást mutatunk be, mely a 
pillanatnyi gradiens alapján valós idejű, lépésenkénti tanítást tesz lehetővé [ W1189]. 


A háló felépítését a 8.11 ábra mutatja. Látható, hogy ez valójában egy globális visszacsatolást tartalmazó háló, 
hiszen a háló kimenetéről 1s van visszacsatolás a háló bemenetére, ugyanakkor a háló lokális visszacsatolásokat 
1s tartalmazhat, mivel a statikus háló-kimenetek nem mindegyike képezi a teljes háló kimenetét. Ha az általános 
modell-struktúrák szerint kategorizáljuk a hálózatot, akkor az alapjában egy NOB struktúrának tekinthető. Ha 
azonban figyelembe vesszük, hogy van olyan processzáló eleme is, amelyről történik visszacsatolás, de amely 
közben nem képezi a háló kimenetét, akkor a hálót egy más modell-osztályba tartozónak is tekinthetjük. A 
visszacsatolt, de a kimenetre ki nem jutó PE-k a háló belső állapotait reprezentálják, így egy nemlineáris 
állapotteres modellmegadás látszik e struktúra jellemzésére a legalkalmasabbnak. 


A rekurzív háló emlékezettel rendelkezik, tehát egy bemeneti szekvenciára egy kimeneti szekvenciával válaszol. 


A kimenet a FT) edik időpillanatban a visszacsatolás miatt a következő: 


(kr [x(m.y(ri] (g.39) 


8.11. ábra - Rekurzív háló architektúra 
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Az egységes kezelés érdekében vezessük be a következő jelölést. Jelöljük az előrecsatolt háló-rész i-edik 
ke) 


bemeneti komponensét " (k) val: 
nesőtt si 
je MESE eg 4) 


ahol A jelöli a bementi indexek halmazát, B a háló azon processzáló elemeinek index-halmazát, mely 
processzáló elemek kimenetét visszacsatoljuk. Ezzel a háló kimenete 


PF, [e 41) sfls (91-37 ye új (8 41) 


vagy az eredeti jelölésekkel 
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A hiba a háló azon kimenetein értelmezhető, amelyeknél kívánt választ specifikálunk. Vagyis a 
hibakomponensek a k-adik időpillanatban: 


cöfjéke B (-g.(FJ)  haieC(k) 


Itt C(4) jelöli azon processzáló elem-indexek halmazát, amelyekre kívánt választ specifikálunk a k-adik 
lépésben. A halmaz lépésfüggő megadása azt jelenti, hogy időlépésenként eltérő neuronokhoz rendelhetünk 
kívánt választ. 


Az eredő pillanatnyi hiba a hibakomponensek összege: 


e (ki - e (kk 


HEET] (8.44) 


A megfelelő működés eléréséhez a tanítás során a teljes szekvencia alatti eredő hibát, vagyis a pillanatnyi hibák 
teljes szekvenciára, mint időablakra vett összegét kell minimalizálnunk. 


ts ú k 
2 WA (8.45) 


A gradiens módszer alkalmazásakor ennek a teljes hibának a súlymátrix szerinti gradiensét: 


ös 85 [ki] 
are (8.46) 


kell meghatároznunk és a szokásos módon, a negatív gradiens irányában kell változtatnunk a súlyokat. A 
gradiens számítás az egyes aidőpillanatokbeli gradiens számítás felhasználásával elvégezhető. Ennek 
megfelelően minden egyes időpillanathoz tartozik egy súlymódosítás, és ezen súlymódosítások adott időablakra 
vett összege adja a tényleges súlymódosítás értékét. Itt súlykorrekció nyilvánvalóan nem történhet minden 
időpillanatban, hiszen az időablakon belüli hibameghatározás és súlykorrekció-számítás feltételezi, hogy közben 
a súlyok nem változnak, tehát a háló ezen időlépések alatt rögzített. A tanítást szakaszosan végezzük, egy 
szakaszban tulajdonképpen az összes tanítópontot, tehát a teljes tanítószekvenciát egyszer felhasználjuk. 


Az időablakra számított teljes hiba alapján történő tanítás tehát — hasonlóan az előző pontban bemutatott 
tanításhoz — nem végezhető el valós időben. A valós idejű hálózat-módosításhoz a pillanatnyi hiba gradiensét 
minden egyes lépésben kiszámítjuk és minden lépésben el 15 végezzük a súlyok módosítását. Ez azt jelenti, hogy 
a háló "emlékezetének" ideje alatt 15 változik maga a háló, igazában tehát nem a valódi gradiens irányában 
történik a súlymódosítás. E módszer a legmeredekebb lejtő eljárásnak csupán közelítését adja. Az eltérés a 
"valódi" és a közelítő gradiens között annál kisebb, minél óvatosabb a lépésenkénti súlymódosítás, tehát minél 
kisebb a tanulási tényező. Megfelelően kis u alkalmazása esetén a valós idejű tanítás a valódi gradiens alapú 
tanítás Jó közelítése lesz. Az eljárás előnye, hogy egyszerűbb, minden újabb tanítópont felhasználásánál azonos 
módon kell eljárnunk, nem kell tárolnunk, illetve akkumulálnunk az egyes lépésekhez tartozó súlymódosító 
értékeket, nem kell blokkosan végezzük a tanítást. A súlymódosítás alapösszefüggései a kétféle 
megközelítésben azonosak, különbség tehát csak az elemi súlymódosítások felhasználásában van. A módszer 
alkalmazhatóságát szimulációs vizsgálatok és gyakorlati alkalmazások igazolják. Az alábbiakban a tanítási 
összefüggések származtatását mutatjuk be. 


A súlykomponensekre vonatkoztatott pillanatnyi gradiens az alábbi formában határozható meg: 


ös Ík]) GdeÍk) 


öNy ké ÖV (BAT) 








A megfelelő súly módosítását meghatározó összefüggés: 


as [ke] 


ÍÁH [1 — 
j öwy (8.48) 


ahol u most 1s a tanulási tényező (bátorsági faktor). A gradienst továbbírva kapjuk, hogy: 
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agy, [ke] 
A 944 parciális deriváltat a háló dinamikáját leíró (8.41), ill. (8.42) egyenleteket figyelembe véve kapjuk 
meg: 
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Felhasználva, hogy 7Wy  hal-iés r-j, egyébként a két súly között nincs kapcsolat, tehát a derivált értéke 0: 
dWe 
ay, (8.53) 


ha r-j, (itt ó;, a Kronecker delta) és hogy 


ül ha re A 














E W, . SEL ha re, 

§ (8.54) 
öv (Kál) öy 
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va . (8.55) 


Fenti összefüggés a parciális deriváltra egy rekurzív összefüggés, amelynek kiértékeléséhez természetes 
feltételezés, hogy a kunduló érték 


ay, (0) Hi 


ZHp (8.56) 





A lépésenkénti súlymódosítás a fentiek felhasználásával tehát: 


ag [4] 


ml mu ezglalirb aj h sze EP" vágy 
ús , , (8.57) 





f 1 


ahol jeHjeAuRiletésre BH 

A valós idejű eljárás hátránya, mint említettük, hogy nem pontosan a negatív gradiens mentén történnek a 
korrekciós lépések. Ez nagyon hasonló a standard hibavisszaterjesztéses eljárásnál alkalmazott módszerhez 
akkor, ha minden egyes tanítópont után végzünk súlymódosítást és nem csak a batch tanításanál szokásos 
módon, amikor csak a teljes tanító sorozatokat (epochokat) követően történik súlymódosítás. 
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A Ronald Williams és David Zipser által javasolt eljárásnak több módosított verzióját 15 kidolgozták. A valódi 
gradiens és a pillanatnyi gradiens alapján történő számítások közötti átmenet különösen akkor gyorsítja a 
konvergenciát, ha a hálóval feldolgozandó bemeneti jel-szekvencia nagyon hosszú. Tony Robinson és Frank 
Fallside [Rob9l] olyan hálózat tanítására adott a fentiektől eltérő megoldást, ahol visszacsatolás a valódi 
kimenetekről — tehát amely neuronokhoz kívánt válaszokat 15 rendelünk — nincs, csupán a háló többi — 
valójában rejtett — neuronjának kimenetelt csatoljuk vissza. 


5. Dinamikus hálózatok kialakításának néhány további 
lehetősége 


Az előzőekben bemutatott konkrét neuronháló  architektúrákon túl számos további lehetőség áll 
rendelkezésünkre neuronháló alapú dinamikus rendszerek létrehozására. Ezek a lehetőségek azon a már említett 
megközelítésen alapulnak, hogy statikus nemlineáris és dinamikus lineáris rendszerek különböző struktúrájú 
összekapcsolásával különböző nemlineáris dinamikus modellek nyerhetők. 


Láttuk, hogy a statikus tulajdonságú hálózatok dinamikussá tétele során a leggyakrabban használt lehetőség 
késleltető sorok (tapped delay line), illetve visszacsatolások alkalmazása. Természetesen az így keletkező 
struktúrák tanításához legtöbbször egy új tanító algoritmus megalkotása 15 szükséges. Erre az előzőekben több 
példát is láttunk. A módszereket alapvetően három csoportba sorolhatjuk: 


e dinamika beépítése a feldolgozó elemekbe (tulajdonképpen lokális visszacsatolás), 
e visszacsatolások kialakítása a hálózaton belül (globális vagy lokális visszacsatolás), 
e egybeépítés hálózaton kívüli dinamikával. 


Valójában mindhárom fenti lehetőség statikus-nemlineáris és  dinamikus-lineáris részek — különféle 
kombinációkban történő — összekapcsolását jelenti. 


Az első lehetőséget sokan vizsgálták, elsősorban a hibavisszaterjesztéses algoritmussal tanított többrétegű 
perceptron hálózatból knundulva (Id. pl. a FIR-MLP hálót). Ennek a módszernek a hátránya az, hogy a 
többrétegű háló önmagában 15 nagy számításigényű tanítása a dinamikus elemek beépítése miatt még nagyobb 
számítási kapacitást igényel, az így kapott háló tanítása meglehetősen lassú lesz. 


A második lehetőségre jellegzetes példaként két rekurzív hálózat-architektúrát a megfelelő tanítási 
algoritmusokkal szintén bemutattunk. 


A továbbiakban az utolsó lehetőséget vizsgáljuk, mivel az így felépíthető rendszerek igen bonyolultak is 
lehetnek, ugyanakkor strukturált felépítésük miatt viszonylag könnyebben értelmezhetők. Bár ezekre a 
lehetőségekre már utaltunk, a lineáris dinamikus és nemlineáris statikus rendszerek kombinációjaként 
származtatott elrendezések vizsgálata az eddigiektől kissé eltérő, általános megközelítés bevezetését teszi 
lehetővé: a tanítást, mint az általános érzékenységvizsgálat eredményét felhasználó eljárást értelmezi. Ezt a 
megközelítést Kumpati Narendera cikkeit [Nar90] és [Nar91] követve a 8.12 ábrán látható elrendezésekhez 
kapcsolódóan fogjuk bemutatni. 


Az ábra négy elrendezést mutat, melyek mindegyike statikus nemlineáris leképezést megvalósító 
neuronháló(k)ból és lineáris dinamikus rendszerből áll. Az ábrán H(z) jelöli a lineáris dinamikus 


részrendszereket, N, NN pedig neurális hálózattal megvalósított nemlineáris statikus elemeket, ahol W jelöli a 
hálózat súlymátrixát. Ezeket az összetett struktúrákat általánosított neurális hálózatoknak (generalized neural 
network) nevezzük. 


5.1. A parciális deriváltak számítása 


A statikus MLP hálózatok tanítására alkalmazott hibavisszaterjesztéses algoritmus (5. fejezet) kiszámítja a 
hálózat négyzetes kimeneti hibájának a hálózat paraméterei (súlyai) szerinti parciális deriváltjait. Erre azért van 
szükség, mert az alkalmazott gradiens alapú algoritmus ez alapján számítja a súlymódosításokat. Az algoritmus 
a rétegeken keresztül visszafelé haladva a láncszabály alkalmazásával számítja ki az egyes deriváltakat, ami 
tulajdonképpen azt jelenti, hogy mindig kiszámolja az egyes rétegek kimeneteinek a réteg bemenetei szerinti 
deriváltjait 18. 
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8.12. ábra - A Narendra által javasolt struktúrák 





(a) modell 





(c) modell (d) modell 


Amikor a statikus hálózatot egy összetett struktúra részeként akarjuk használni és az egész rendszert akarjuk 
tanítani, akkor — amint a következő részben majd látjuk — szükség lehet a neurális alaprész kimeneteinek a 
bemenetei szerinti parciális deriváltjaira 15. Ezeket a deriváltakat a hibavisszaterjesztéses algoritmushoz nagyon 
hasonló módon, a hálózat rétegein visszafelé haladva tudjuk kiszámítani. 


A módszert a hibavisszaterjesztéses algoritmusnál 15 használt, a 4.1. ábrán látható kétrétegű, két kimenettel és 
mél 
egy háromelemű rejtett réteggel rendelkező hálózaton demonstráljuk. Példaként a 88 


számítását végezzük el: 


: parciális derivált 
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A 4.2. alfejezetben bemutatotthoz hasonló módon itt 15 bevezethetők az egyes rétegek neuronjainak lineáris 
kimeneteihez tartozó kimeneti deriváltak (a hálózat kimenetének a neuronok lineáris kimenetei szerinti 


deriváltjai). Ha a (4.4)-es képlettel definiált származtatott hibagradiens számításakor a kimeneti hiba ( "1 ) helyére 

Fjzás Kába ő ű E EN 7 [é] 4. ő ; 
egységet helyettesítünk, akkor a további visszaterjesztő lépések során a f mennyiségek sorra a kimenet 
parciális deriváltjait fogják tartalmazni az adott neuron lineáris kimenete szerint. Ezért a közönséges statikus 
hibavisszaterjesztéses algoritmus felhasználható a kimenet parciális deriváltjainak számításánál (közvetlenül 
azonban csak egy kimenet esetén). A j-edik bemenethez tartozó parciális derivált az első réteg neuronjainak az 


KN ; LE (4 5 SERVE tes ÁSÓ 
adott bemenethez tartozó súlyai ék ) és a § " mennyiségek lineáris kombinációja lesz. 
8.13. ábra - A kimenet bemenet szerinti gradiensének számítása egybemenetű - 


egykimenetű hálózatnál 
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A 8.13 ábra a fenti módszerrel meghatározott parciális derivált számítását mutatja egybemenetű és egykimenetű 
hálózat esetén (ekkor persze a parciális derivált közönséges deriváltat jelent). Az ábrán a tanító jel és a hálózat 
válasza 15 látható 200 tanító ciklus után. (A konkrét példánál a 200 tanító ciklus még kevés). A sűrün pontozott 
vastagabb vonal jelöli a megtanulandó függvényt, a szaggatott a hálózat válaszát. A folytonos vonal a fenti 
módon számított gradiens, míg a ritkán pontozott vékonyabb vonal a megtanulandó jel valódi deriváltja. 


5.2. Neurális hálózatot tartalmazó összetett struktúrák tanítása 


Elsőként a 8.12 ábrán felvetett legegyszerűbb, (a) modellt vizsgáljuk. Ez egy statikus neurális hálózatot és ennek 
kimenetére kapcsolt (ismert) lineáris dinamikus elemet (szűrőt) tartalmaz. Mivel már ebben az egyszerű 
modellben sem a neurális rész kimenetén keletkezik a hiba, a statikus hibavisszaterjesztés nem használható. (A 
kimeneten kapott hibát közvetlenül nem használhatjuk föl a hálózat tanítására. Gondoljunk csak a legegyszerűbb 
esetre, ha a kimeneti tag nem 15 dinamikus, hanem csak egy konstans szorzó. Ha a konstans értéke negatív és a 
kimeneti hibát használva statikus tanító algoritmussal próbáljuk tanítani a hálózatot, akkor az mindig pontosan a 
helyi gradienssel megegyező irányban, azaz az optimumtól távolodva fogja változtatni a hálózat súlyait.) Erre az 
esetre dolgozták ki az ún. dinamikus hibavisszaterjesztéses algoritmust. 


A statikus esettől eltérően most mind a kimeneti kívánt értékek, mind a kimeneti hibavektor időfüggvények. 
Célunk most 15 a kimenti négyzetes hiba minimalizálása, és most 15 gradiens alapú módszert használunk. 


Az 8.14 ábra több-bementű—többkimenetű hálózatra mutatja a gradiensszámítás elvét. Az ábra jelöléseivel az 
alábbi eredményre juthatunk: 


92(M A ár 
$ (8.59) 








ÖV i GW 


GÁT 


A Wa parciális deriváltak minden lépésben számíthatók a statikus hibavisszaterjesztéses módszerrel. A képletet 
értelmezve azt láthatjuk, hogy az egymás után, statikus visszaterjesztéssel kapott súlyváltoztatásokat át kell 
engedni (szűrni) a kimeneti lineáris dinamikán. Ezt mutatja az 8.14 ábrán az érzékenységi modellnek nevezett 
rész. Ha az előbbi egyszerű dinamikamentes példára vizsgáljuk az eredményt, láthatjuk, hogy a kimeneti elemen 
átszűrve a súlyváltoztatásokat, valóban Jó eredményre jutunk. 
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A 8.12 (b) ábrán felvetemtrendszer Y jelű neurális hálózata a kimeneten helyezkedik el, így statikus 
algoritmussal tanítható. Az —— jelű hálózat gradiense az alábbi összefüggés szerint határozató meg: 


dcÍk] gyik] agyÍki öv, 








ÖV Gy fű av, ÖM. (8.60) 
gy 4) 
A fenti kifejezésben a iz differenciálhányados az előző részben meghatározott módon (ld. (8.58) 


Öv, 


összefüggés), míg a 74, derivált az (a) rendszernél bemutatott módon számítható. 


8.14. ábra - A gradiens származtatása az 8.12 (a) ábrán látható modellben 


ad) 


Fi(z) 





érzékenység 5 
számítás 3 ág: 





FánGö kö rés .- érzékenységi modell 


A 8.12 (c) modell egy lineáris rendszerrel visszacsatolt neurális hálózatot tartalmaz. A modell kimenete ennek 
megfelelően: 


y- NixrHízjy, (8.61) 


Az eddigiekhez hasonlóan most 15 igaz, hogy: 


de() — gy() 
ép HW (8.62) 








A visszacsatolás miatt az itt adódó egyenlet egy differenciaegyenlet; a keresett deriváltak függnek saját korábbi 
értékeiktől 15. 
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an (v) AN [v) 
ahola 9" értékek statikus visszaterjesztéssel, a öv — Jacobi mátrix (ennawívimei a kimenetek deriváltjai a 
ÖV 
bemer 3y (xi szerint) pedig az (a) modellnél bemutatott módon számíthatók ( a pillanatnyi deriváltat jelöli, 
GW 
míg a az "időben" számítottat). 


A (d) modell a legösszetettebb a négy közül. Az Y jelű hálózat a (c) modellnél bemutatott módon tanítható, míg 
az W tanításához szükséges hibaderiváltakra a következő formula származtatható: 
delki gyík) AN (vil an ír) gy [1 


EL e EL EEG ae (ző 


GW Gy ÖV GW GW , (8 .64) 


Mind a (c), mind a (d) modell tanítására kapott eredmények úgy is értékelhetők, hogy a statikus 
visszaterjesztéssel kapott deriváltakat át kell engedni egy, a beágyazó rendszer által meghatározott dinamikus 


rendszeren [Nar901]. 


A 8.15 ábra négy konkrét rendszert mutat, amelyek tanítása az előzőkben bemutatott elvek alkalmazásával 
elvégezhető. 


8.15. ábra - Négy dinamikus struktúra. 


x(/ő) x(/) Vik) 





(a) 





Az egyes architektúráknál Jj(.) és 8(.) statikus nemlineáris leképezéseket jelöl, melyeket valamilyen 
neuronhálóval valósíthatunk meg. A TDL blokkok késleltető láncot jelölnek a késleltető fokozatok közötti 
megcsapolásokkal, H(z) pedig egy lineáris dinamikus rendszert, amely lehet előrecsatolt (FIR) vagy 
visszacsatolt (IIR) típusú 15. E struktúráknak az az érdekessége, hogy a nemlineáris leképezéseket statikus 
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hálókkal megvalósító ff.) és g(.) blokkok bemenetén megcsapolt késleltető sorokat találunk, tehát ezek a 
hálórészek önmagukban 15 dinamikus nemlineáris rendszerek (pl. FIR-MLP-k). Ennek megfelelően az (a) 
architektúra egy NFIR típusú dinamikus neuronháló és egy lineáris szűrő sorbakapcsolásából áll. A (b) 
elrendezésben két NFIR típusú háló található; az egyik az előrecsatoló, a másik a visszacsatoló ágban. A (c) 
elrendezés hasonló a (b)-hez, azzal a különbséggel, hogy az előrecsatoló ágban lévő NFIR háló helyett egy 
lineáris szűrő szerepel, míg a (d) elrendezés a fejezet elején bemutatott NOE modell. Ezek az architektúrák 15 azt 
illusztrálják, hogy neuronháló alapú nemlineáris dinamikus rendszermodelleket nagyon sok változtaban tudunk 
konstruálni. Az itt bemutatott architektúrák tanítása a megfelelő dinamikus neuronhálók és az összetett 
struktúrák tanításánál bemutatott eljárások kombinálásával végezhető el. 


6. Dinamikus hálók alkalmazása 


A dinamikus neurális hálózatok alkalmazása igen szerteágazó. A hálók legfontosabb alkalmazási területei 
bonyolult ipari, gazdasági, pénzügyi, stb. rendszerek modellezéséhez, irányításához, illetve az ilyen komplex 
rendszerek viselkedésének előrejelzéséhez kapcsolódnak. Általánosságban elmondható, hogy a dinamikus 
neuronhálók mindazon területeken sikerrel alkalmazhatók, ahol a hagyományos eszközökkel történő 
feladatmegoldás nem vagy nehezen lehetséges, és ahol a neuronhálók alkalmazásához elengedhetetlenül 
szükséges megfelelő mintakészlet rendelkezésre áll vagy megszerezhető. Egyfelől tehát a rendelkezésre álló 
ismeret, tudás jellege, másfelől a feladat komplexitása szabja meg, hogy a neuronhálók adott feladat 
megoldásában sikerrel alkalmazhatók-e vagy sem. 


A dinamikus hálók alkalmazási körét két fő szempont határozza meg: egyrészt a dinamikus hálók képessége, 
másrészt az, hogy milyen előnyök várhatók a neuronhálók alkalmazásától. Láttuk, hogy a statikus neuronhálók 
több típusára igaz, hogy univerzális approximátorok, tehát képesek tetszőleges folytonos nemlineáris leképezés 
tetszőleges pontosságú közelítésére. A dinamikus neuronhálók — bármilyen alkalmazási területet 15 nézünk — 
sikerüket az általános modellező képességüknek köszönhetik. Előnyük — és részben hátrányuk 15 —, hogy a 
megoldandó feladatról viszonylag kevés háttérismeret birtokában is alkalmazhatók. Téves nézet azonban az, 
hogy mivel egy neuronháló fekete doboz modellt valósít meg, itt nincs 15 szükség a megoldandó feladat részletes 
megismerésére. Miközben a fekete doboz modell a bemeneti-kimeneti mintapontok vagy mintaszekvenciák 
alapján létrehozható, a megoldás minőségét és a megfelelő minőségű megoldás elérésének nehézségét 15 
döntően befolyásolja, hogy milyen jellegű és mennyi ismeret áll rendelkezésünkre. 


A dinamikus hálók alapvetően a statikus hálók kiterjesztései révén származtathatók, ahol a fő képességeket a 
regresszor és a nemlineáris leképezés együttesen határozzák meg. Megfelelően megválasztott regresszor és az 
univerzális approximátor képesség biztosítja, hogy a dinamikus neuronhálókat, mint univerzális nemlineáris 
dinamikus rendszermodellező eszközöket tekintsük. 

A következőkben előbb a dinamikus rendszerek modellezésének néhány általános kérdését foglaljuk össze 


röviden, majd a neurális hálózatok dinamikus feladatokra történő alkalmazásánál felmerülő fontosabb 
kérdésekkel foglalkozunk, végül néhány mintapéldát mutatunk be. 


6.1. identifikáció, rendszermodellezés 


Az identifikáció, mint alapfeladat célja létrehozni a vizsgált rendszer egy modelljét, amely adott feltételek 
mellett, adott pontossággal közelíti az eredeti rendszer viselkedését. 


Egy rendszermodellezési feladat megoldásánál a következő főbb lépések különböztethetők meg: 

e a modellezés céljának meghatározása, 

e kiunduló a priori információ begyűjtése a modellezendő rendszerről, 

e a modellstruktúra megválasztása, 

e kísérlet-tervezés és adatgyűjtés, 

e modell paraméterbecslés, 

e a modell kiértékelése. 

A 8.16 ábra egyrészt a fenti lépések kapcsolatát, másrészt azt mutatja, hogy a modellezés iteratív folyamat. 
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8.16. ábra - A rendszermodellezés folyamata 


A modellezés célja 


A priori információ gyűjtése 


Modellstruktúra választás 


Kisérlet-tervezés 


Paraméterbecslés 





Módosítás 






Modell kiertekelés 
nem megfelelő 


megfelelő 


Végső modell 





A struktúra rögzítését követően, a kísérletek eredményeképpen kapott további ismeretek felhasználásával tudjuk 
a modell szabad paramétereinek értékét meghatározni, a paraméterbecslési feladatot megoldani. Az így kapott 
modell kiértékelése alapján dönthetünk, hogy a modellünk a kitűzött célnak megfelel-e vagy finomítani, 
pontosítani kell. Ez utóbbi esetben a modellezési folyamat valamely korábbi lépéséhez vissza kell térni. Ez 
jelentheti a modell struktúrájának módosítását, további ismeret begyűjtését — melyhez akár új kísérlettervezésre 
is szükség lehet —, vagy a paraméterbecslési eljárás módosítását. 


Azzal, hogy neuronhálós modellt építünk a fenti kérdések egy részét eleve eldöntöttük, hiszen a neuronhálós 
modell struktúráját a neuronháló típusának meghatározásával részben rögzítjük 15. Neuronhálós modellezésnél 
azt azonban figyelembe kell venni, hogy a modell struktúráját döntően a modellező eszköz és nem a 
modellezendő rendszer szabja meg. Ezért strukturális modell létrehozására — ahol cél, hogy a modell struktúrája 
minél inkább hasonló legyen a modellezendő rendszer struktúrájához — lényegében nincs lehetőség; a 
neuronhálós modell viselkedési modell. A viselkedési modell a modellezendő rendszer bemeneti-kimeneti 
viselkedését tudja minél pontosabban leírni anélkül, hogy a modell struktúrája akárcsak hasonlítana 1s a 
modellezendő rendszer struktúrájához. Ez azt jelenti, hogy neuronhálós modellezésnél még akkor sem tudunk 
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strukturális modellt létrehozni, ha egyébként az ehhez szükséges ismeret birtokában vagyunk. A neuronhálós 
modellek fekete doboz (black box) modellek, melyek csupán kívülről nézve jellemzik a modellezendő rendszer 
viselkedését. 


6.1.1. Struktúraválasztás dinamikus neurális hálózatoknál 


Neuronhálós modellezésnél a modellstruktúra választás alapvetően arra a kérdésre ad választ, hogy a lehetséges 
általános struktúrák melyikét alkalmazzuk. A struktúraválasztás első kérdése, hogy a modellezendő rendszer 
statikus vagy dinamikus modellel írható-e le kellő pontossággal. 


Amennyiben statikus rendszermodellezési feladattal állunk szemben, az előző fejezetekben bemutatott 
neuronháló típusok közül választhatunk. A struktúraválasztás a típusválasztáson túl a háló méretének — pl. egy 
MLP rejtett rétegében a neuronok számának — a megválasztását 1s jelenti. Az ezzel kapcsolatos nehézségekkel 
és lehetőségekkel az előző fejezetekben foglalkoztunk. 


Dinamikus feladatoknál a struktúraválasztás Jóval nehezebb: egy dinamikus neurális hálózat által biztosított 


7 SALAK) leképezésben mind a regresszorvektort, mind a dinamikus háló komplexitását (pl. a rejtett 
rétegek számát, a rejtett réteg(ek) méretét vagy a bázisfüggvények számát, stb.) meg kell határozni. A 
regresszorvektor-választás egyfelől a nemlineáris dinamikus modellosztály megválasztását jelenti, másfelől a 


? NEE Aa TERNEK ANETSÉ RSS 


A modellosztály megválasztása elsődlegesen a priori információ alapján lehetséges. Amennyiben van olyan 
előzetes ismeretünk, amely alapján kiválasztható a modellosztály, valójában már nem fekete doboz, hanem 
sokkal inkább szürke doboz (grey box) modellezéssel van dolgunk. Megfelelő a priori információ nélkül azt az 
általános elvet követhetjük, hogy mindig a lehető legegyszerűbb, a feladatot még megfelelő minőségben 
megoldó modellosztályt célszerű választanunk. Ez azt jelenti, hogy amennyiben dinamikus nemlineáris modellre 
van szükségünk, célszerű az NFIR struktúrával kezdeni és csak akkor áttérni komplexebb modellosztályra, ha az 
egyszerűbbel a feladat megfelelő minőségben nem oldható meg. 


A fejezet elején áttekintett modellosztályok közül az NFIR és a NARX struktúrák kitüntetettek, mivel ezek 
előrecsatolt architektúrák, így alkalmazásukkal a visszacsatolt struktúráknál jelentkező stabilitási kérdések nem 
merülnek fel. A visszacsatolt nemlineáris rendszerek stabilitási kérdéseivel a könyvben nem foglalkozunk. Az 
érdeklődő olvasó az irodalomban (pl. [Nar05], [5uy99], [Hay99], [GupO03], stb.) tááékozódhat. 


A modellosztály megválasztását követően a struktúra meghatározása a modell-fokszám meghatározását igényl1. 
vett régebbi bemeneti és/vagy kimeneti, stb. értékek számát jelenti. Mivel a modell-fokszám előzetesen 
általában nem ismert, célszerü különböző modell-fokszámok mellett különböző komplexitású modellek 
létrehozása és valamilyen kritérium szerinti kiértékelése. A kérdés egy lehetséges intuitív megközelítése, ha 
egyre növekvő komplexitású modelleket hozunk létre és értékelünk ki, például az átlagos négyzetes hiba 
kritérium alapján. Már a statikus hálóknál láttuk azonban, hogy a modell komplexitásának növelésével monoton 
módon csökkenthető (a tanítópontokban) a modellezés hibája, miközben az általánosítóképesség romolhat. A túl 
nagy komplexitás dinamikus hálóknál 15 a tanítópontokhoz való túlzott illeszkedést eredményezheti, miközben 
az általánosítóképességet ronthatja. 


A tanítópontokban meghatározott hiba önmagában nem elegendő a megfelelő modellkomplexitás 
meghatározására. Ehhez olyan kritériumfüggvények alkalmazása szükséges, melyek a tanítópontokban 
meghatározható modellezési hiba mellett a modell komplexitását 15 figyelembe veszik: a modell komplexitást 
büntetik, elkerülve így a túl komplex modellek alkalmazását. 


Számos olyan kritériumot definiáltak, melyek ezt az elvet követik. Ezek között a legfontosabbak a különböző 
információs kritériumok, elsősorban az Akaike információs kritérium (Akaike information criterion, AIC) 
[Aka74], valamint a végső előrejelzési hiba (final prediction error, FPE) IAka69] vagy a minimális leíró hossz 
(minimum description length, MDL) IRi1578]. Ezeket a kritériumokat elsődlegesen lineáris rendszerek 
komplexitásának meghatározására dolgozták ki, de korlátozottan alkalmazták őket nemlineáris dinamikus 
rendszereknél, így dinamikus neuronhálóknál is (Id. pl. INer00]. Ezen kritériumok közös jellemzője, hogy két 
tagból állnak: a kritérium első tagja a tanítópontokbeli hibát veszi számba (tapasztalati hiba), míg a második tag 
egy büntető tag, melynek értéke annál nagyobb, minél nagyobb komplexitású a modell. Az általános forma: 


Kritérium - tapasztalati hiba - modell-komplexitást büntető tag 
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Vegyük észre, hogy ez az általános forma rokon a 2. fejezetben bemutatott strukturális kockázat minimalizálási 
(SRM) elvnél alkalmazott általános formával. Lényeges különbség azonban, hogy míg az SRM elvhez 
kapcsolódó felső korlátok (pl. (2.31) összefüggés) a komplexitás mértékeként a VC-dimenziót használják, addig 
itt a komplexitást a modellstruktúra szabad paramétereinek a száma fejezi kt. 


Az előbbi kritériumok alkalmazása olyan modell kialakítására próbál kényszeríteni, ahol nemcsak a hibát, 
hanem a komplexitást 15 minimalizáljuk. [Így valójában itt 15 az ún. Ockham borotvája (Ockham ss razor) elvet 
alkalmazzuk, amely azt mondja ki, hogy két azonos minőségű megoldás közül mindig az egyszerűbbet 
válasszuk." 


Ezeken a kritériumokon kívül kidolgoztak más eljárásokat 15 a modell-fokszám meghatározására. Dinamikus 
neurális hálók fokszám-meghatározására született a Lipschitz indexen alapuló heurisztikus eljárás [He93], 
amelyet a következőkben foglalunk össze. A fokszám meghatározás valójában azt adja meg, hogy a 
regresszorvektorban (ld. (8.3)-(8.7) összefüggések) hány komponens szerepel és melyek ezek a komponensek. 
Egy nemlineáris dinamikus rendszermodell (8.1) szerint a regresszorvektor (nemlineáris) függvénye. Ebben a 
felfogásban a fokszám azt adja meg, hogy ennek a függvénynek hány bemeneti változója van. A Lipschitz 
indexen alapuló eljárás a bemeneti változók megfelelő számát és a megfelelő bemeneti változókat próbálja 
meghatározni. 


6.1.1.1. Lipschitz index 


Az eljárás azon alapul, hogy feltételezhetjük a nemlineáris dinamikus rendszer által megvalósított leképezés 
folytonosságát. A módszer érdekessége és a gyakorlati alkalmazás szempontjából az előnye, hogy kizárólag a 
tanító adatokból dolgozik. 


A módszer bemutatásához induljunk ki abból, hogy adott egy nemlineáris bemeneti-kimeneti leképezés: 
sz FON fett] (8.65) 


Mázsa 


amely egy folytonos, sima, többváltozós függvény valamilyen értelmezési tartományon, és ahol az 


változók a függvény bemeneti változói. Az f függvény az 917r""""sfüggetlen változók mindegyikétől, de csak 


ezektől a független változóktól függ. A megfelelő számú bemeneti változó meghatározása a következő, 
Lipschitz indexnek nevezett mennyiség alapján lehetséges: 


ZER ES e ezt SNZB A lá 
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ahol a" (re) a 
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Lipschitz hányadosok közül a k-adik legnagyobb érték, N a bemeneti változók száma (a regresszorvektor 
dimenziója), p pedig egy alkalmasan megválasztott pozitív szám, rendszerint p — 0,01P - 0,02P. (P a szokásos 
jelölésnek megfelelően a tanítópontok száma). 


Tételezzük föl, hogy az "E függvény bemeneti változók szerinti deriváltjai korlátosak, vagyis 


GY Üx) 


zMm 17-12... N 
ör, 


, (8.68) 


Vt 








ahol M egy véges pozitív érték. 
Ha a függvény folytonos, a Lipschitz hányados korlátos kell legyen, vagyis 


Ü£ 


Ha) 
3, 5 (8.69) 


? Az Ockham borotvája elvet William of Ockham (vagy Occam) 14. századi angol filozófusnak tulajdonítják 
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bármely i,j adatpárra. A sok adatpár közül azokat vizsgáljuk, ahol a Lipschitz hányados értéke nagy. 


Határozzuk meg a Lipschitz hányados felső korlátját. A függvénykapcsolat érzékenységi vizsgálata alapján a 
kimenet megváltozása a bemenetek megváltozásai alapján az alábbi formában írható fel: 
ar ar 
4Yy——6 hirt E hirt... FEL 

8 ör a Ex fi EX ül 


fán tff árt FÉL Á Tr (8.70) 


ahol § az "6 függvény x, szerinti parciális deriváltja, 997" ()-x (d 7A1, ..., N és AP7 (4-9) 
Felhasználva a deriváltra vonatkozó (8.68) felső korlátot és a Schwarz egyenlőtlenséget, továbbá, ha a bemeneti 
térben az euklideszi normát használjuk, a Lipschitz hányadosra az alábbi felső korlátot kapjuk: 


W láp] 
bj 1 1 1 
(Ay (Ax h... FA xy 
 [dánágrámt E É4 ára] 
(ind (xy 4... kih rő 


ia tázk... FA xy] M 2 ÍM 


át 2 PB ee EA 
(Aaa rrdzző 4... a(z (8.71) 


Az fs) függvény rekonstrukcióját akarjuk mintapontok alapján megkapni. Ha a függvény valóban kielégíti a 
(8.68) összefüggést, és az összes bemeneti változó szerepel az Fa) függvény rekonstrukciójában, akkor az 
összes mintapárra számított Lipschitz hányadosra érvényes kell legyen a (8.71) felső korlát. 


at ébe a 


mintapontoknál , az xv komponens hiányzik. Ekkor két bemeneti pont közötti távolságra 


1 1 1 
Am tiz] H..-HATa) adódik, miközben a megfelelő kimenet-megváltozás változatlan marad, vagyis a 


Lipschitz hányados 


4-1) láp] 
j 1 1 1 
(ésa rá rad b... FIA Nna 


. [dámntáy ászt... Efő hr] 


farán An g712) 


jet fed yr r r ml r r r r r fa 
lesz. Ha xv független a többi bemeneti változótól, $§ extrém nagy, sőt végtelen értéket is felvehet. Ilyen eset 
állhat elő, ha 8478727-—é34a7 és 47 tetszőlegesen kicsi, de nem nulla. Ha xy nem teljesen független az 


ny 1 
Fedaszeső 


"wa bemeneti változóktól (ilyen helyzet lehet pl. ha " egy jel késleltetett értékei), akkor 8 
sokkal nagyobb lesz, mintha a bemeneti változók között xv 15 szerepelne. Ebből a vizsgálatból az következik, 
hogy ha egy szükséges bementi változó hiányzik a bemeneti vektorból, a Lipschitz hányados nagyon nagy 
értéket 15 felvehet. Minél több változó hiányzik, annál nagyobb lehet a Lipschitz hányados. Ha ez a helyzet áll 
elő, semmilyen nemlineáris approximációs eszköz sem lesz képes megtanulni a leképezést kielégítő 
minőségben. 


2 aaa mon 


Ha a bemenetek közé egy redundáns változót, pl. Xxw.1-et 15 bevesszük a Lipschitz hányadosra a következő 
adódik: 


CG ERR tsa RB 
Ü. ESETERE ENETTENE 
1 1 24 r1-H 
[dán rgy dztb fára] 
Az) elhzgjő k.E(Áz a] (8.73) 


[1 -k 


1 B ja a) ; ; [64 ) ; 
3 —— csak kismértékben lehet kisebb, mint 9 , vagyis ? 


M-HÁ 


[64 1 párát § , , .. 
3  . Ha további redundáns változók kerülnek a 


bemeneti vektorba a Lipschitz hányadosok jelentősen nem fognak változni. Egy bemeneti változó az f 
függvénykapcsolat szempontjából akkor redundáns, ha ettől a változótól — jelen esetben Xw1-től — a 
függvényérték, y nem függ. 
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Fentie rí"Hiján látható, ho rí"! Lipschitz index tulajdonság r,ív-úgy ha N a Iryír-meti változók megfelelő gal", 
akkor ral"iel azonos Lal"41.e Jóval kisebb, mint . Továbbá is sokkal kiseb r("1int ; 
miközben közel azonos -gyel és így tovább. Ebből adódóan, ha felraj r,i"ik az Lipschitz 
index alakulását N függvényében, azt figyelhetjük meg, hogy ado ri": értéktől kezdve N-től egyre kevésbé 


fog függni, viszont No-nál kisebb számú bemeneti változó esetén N növelésével meredeken csökken. Ez az 
N; érték lesz a bemeneti változók megfelelő száma. 


A 8.17 (a) ábra jól mutatja, hogy N.—3-nál a Lipschitz index minimumot vesz fel. Az ábra azt az ideális 
helyzetet tükrözi, amikor a megfigyeléseink zajmentesek. A görbe közel hasonlóan alakul akkor is, ha a 
mintapontok kismértékben zajosak (8.17 (b) ábra). Ha a zajszint növekszik a görbén látható határozott töréspont 
egyre inkább elmosódik. Erre mutat példát a 8.17 (d) ábra. 


A (8.66) összefüggésből látható, hogy a Lipschitz index a a ge, 2... tt) Lipschitz hányados-sorozat 


JW nel szorzott értékeinek mértani középértéke. A mértani közép alkalmazásának oka, hogy így az index 
alakulása kevésbé érzékeny a tanító adatokat terhelő mérési zajra. 


Ha a fenti eredményeket a fokszámmeghatározásra alkalmazzuk, akkor valójában azt határozzuk meg, hogy a 
regresszorvektorban hány komponensnek kell szerepelnie (és melyek ezek a komponensek). A bemeneti 
komponensek most a dinamikus modellstruktúra osztály függvényében a rendszer régebbi bemeneti (NFIR 
struktúra), régebbi bemenetet és a régebbi rendszerkimenetek (NARX struktúra), stb. lesznek. 


NFIR modellstruktúra esetén az eljárás a következő: Az Lago Lipschitz indexet több különböző modell-fokszám 
érték mellett kell meghatározni, ahol N jelöli az előrecsatoló ág fokszámát. N-1-gyel kezdve csak x(k-1)-et 


.. a Fr vé § [11 F r Fr ; alj 
vesszük be a regresszorvektorba. Ezzel számíthatjuk ki lg "értékét. N-2 esetén x(k-1) mellett a 
Ld hú , , , r [2] [8 .. [1 
regresszorvektor már x(k-2)-t is tartalmazza, így számítható (ff ". Ha 9 " közel azonos £§ " -gyel, x(k-2)-re 
8 KORAN [2]. fi i ű (1 ; ; 
nincs szükség. Ezzel szemben, ha (§ " jelentősen kisebb, mint £§ " , x(k-2) része marad a regresszorvektornak és 


a fokszámnövelést innen folytatjuk x(k-3)-mal. Ezt a stratégiát folytatva lépésről-lépésre növeljük az 
előrecsatoló ág késleltetéseinek számát, amíg a megfelelő fokszámot el nem érjük. 


A Lipschitz index nemcsak NFIR esetben, hanem NARX hálózatoknál 15 alkalmazható, ahol két fokszámérték 
meghatározása a cél. A NARX modelleknél az előrecsatoló ágban lévő késleltetések száma mellett a 
visszacsatoló ág késleltetett értékeinek számát 15 meg kell határozni. 


NARX modell estén a következő stratégia szerint járhatunk el. Az ig a ag Lipschitz indexet több 
különböző modell-fokszám érték mellett kell meghatározni, ahol R az eredő fokszám és ezen belül M jelenti a 


visszacsatoló ág, N pedig az előrecsatoló ág fokszámát. Ha R-1, akkor csak dír-Ú et vesszük be a 


regresszorvektorba. Ezzel számíthatjuk ki Ig" értékét. R—2 esetén d(k-1) mellett már x(k-1)-et 15 szerepeltetjük 


ig R-3 mellett d(k-2) 15 felhasználásra kerül, vagyis La 


a regresszorvektorban, így számítható 
Hi . , , a .. , , yr r 
-gyel, a visszacsatoló ágban nincs szükség két késleltetésre. 


Helyette az R—3-hoz a bemeneti ágban kell egy újabb késleltetett értéket, x(k-2)-t felhasználni és ig t kell 
gés 


, je Ld [84] .. Í 
számítható. Ha azonban í§ " közel azonos 8 


1 ; 
, d(k-2) része marad a regresszorvektornak 


[846 


7 j [2HI , fi . 8 
meghatározni. Ezzel szemben, ha /? " jelentősen kisebb, mint 
és a fokszámnövelést innen folytatjuk x(k-2)-vel. Így juthatunk el í? " -höz, amit ismét össze kell 


hasonlítanunk 437" -gyel. A továbblépés az összehasonlítás eredményétől függően vagy az (MN)—-(2,2) 
struktúra megtartását jelenti, vagy vissza kell térni az (MN)—-2,1) felépítéshez, ahonnan a továbblépés ismét M 


.. yr yr [8H szi yr yr Ld F 8 a r yr y yr , .. . .. 
növelésével az í? " index meghatározásához vezet. Ezt a stratégiát folytatva lépésről-lépésre növeljük a 
visszacsatoló és az előrecsatoló ág késleltetéseinek számát, amíg a megfelelő fokszámot el nem érjük. 


A Lipschitz index alapú eljárás előnye, hogy közvetlenül a mintapontokból dolgozik, anélkül, hogy különböző 
komplexitású modellek előzetes megépítésére szükség lenne. Hátránya a viszonylag nagyfokú zajérzékenység. 


8.2 példa 


Példaként határozzuk meg a Mackey-Glass kaotikus folyamatmodellezésénél a modell-fokszámot. A Mackey- 
Glass kaotikus folyamatot a 
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dr(f) n2x(t— e) 
FL LTE JT gb 


differenciálegyenlet írja le. (A felhasznált idősort a differenciálegyenletből 7—17 mellett negyedrendű Runge- 
Kutta integrálással és (6:1)-es alulmintavételezéssel kaphatjuk. Az az így kapott idősort gyakran alkalmazzák 
különböző dinamikus modellezési megközelítések vizsgálatánál mintapéldaként, mint benchmark feladatot.) A 
Mackey-Glass folyamatból kapott idősor egy olyan kaotikus idősort definiál, ahol a folyamat korábbi értékei 
alapján határozható meg egy későbbi érték. 


m lk) -[dí(k-1), ....d(x- MI] (875) 


A folyamat modellezésére tehát egy olyan visszacsatolt rendszer lehet alkalmas, ahol külső gerjesztés nincs. 
NARX modellt alkalmazva a folyamat mintavételi értékei lesznek a kívánt d(k) válaszok, vagyis a 
regresszorvektor (8.75) alakú lesz és a modell-fokszám meghatározása M értékének meghatározását jelenti. 
P-1000 mintapont alapján, továbbá, ha a Lipschitz index (8.66) összefüggésében p—10, a 8.17 ábrán látható 
eredményt kapjuk. Az ábra jól mutatja, hogy a zaj növelése milyen mértékben teszi bizonytalanná a Lipschitz 
index alkalmazását a fokszám meghatározására. Az ábrán bemutatott zajos esetekben a mintapontokat egyre 
nagyobb szórású additív Gauss Zaj terhelt. 


8.17. ábra - A Lipschitz index alakulása a fokszám függvényében Mackey-Glass 
folyamat esetén zajmentes (a) és zajos (b-d) esetekben. A Gauss zaj szórása: (b) c—0,05; 
(c) c—-0 1; (d) 6—0,3. 


30 


29 











(c) (d) 


6.1.1.2. További lehetőségek a modell komplexitás meghatározására 
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A fenti eljárásokon túl a gyakorlatban számos további módszer alkalmazható a megfelelő modellkomplexitás 
meghatározására. A keresztkiértékelés (cross validation) szerepét a statikus neuronhálók minősítésénél már 
említettük. A módszer dinamikus hálóknál szintén alkalmazható, amikor a létrehozott modellt olyan mintákkal 
teszteljük, melyeket a modell kialakításánál nem használtunk. A valóságos, megfigyelt adatok és a modell 
kimenete közötti különbség — a maradék hiba — vizsgálata alapján értékelhető a modell minősége. A 
keresztkiértékelés eredménye tehát nem közvetlenül a fokszám megfelelő megválasztására utal, hanem a teljes 
megoldást minősíti, de a minősítés eredményét felhasználva meghatározható a megfelelő modell-fokszám 1s. 


A maradék hiba vizsgálata (residual test) alapján eldönthető, hogy a modell kellően pontosan leírja-e a 
modellezendő rendszert. A modell akkor tekinthető megfelelőnek, ha az 


em -dí(kj- yik) (8.76) 


maradék hiba , struktúramentes", semmiféle , mintázatot" nem mutat, sem a bemenettel sem a kimenettel nem 
korrelált. 


Precízebben megfogalmazva, az (e(ÜI hibaminta sorozat 
e nulla középértékű, diszkrét fehér zaj folyamat, 
e Gauss eloszlású folyamat, 


e a hibasorozat elemei és az előző bemeneti értékek korrelálatlanok: 
mefüxríj1- 0, koz g . 


A maradék hiba vizsgálatára szolgál az autókorrelációs és a keresztkorrelációs teszt, melynek során a maradék 
hiba autókorrelációs illetve a hibának és a bemenetnek a keresztkorrelációs függvényét becsüljük. 


Az autókorrelációs függvényt véges számú mintapont alapján az alábbi módon becsülhetjük: 


7 elkietk—r] 


Celrj- 
N- rra (8.77) 





Minél inkább fehér zaj a maradék hiba (vagyis minél inkább , struktúramentes"), annál inkább az 
impulzusfüggvényhöz tart az autókorrelációs függvény. A 8.18 ábra egy tipikus példát mutat a maradék hiba 
autókorrelációs függvényére. 


8.18. ábra - A maradék hiba autókorrelációs függvénye 


C es(T) 





Ü 4) 10 15 20 


F-. 
Kar 


késleltetés (7) 


A keresztkorreláció a maradék hiba és a bemenet közötti kapcsolat vizsgálatára szolgál. A keresztkorrelációs 
függvény az alábbi összefüggés szerint becsülhető: 
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Bs 1 4 
c, [71- — el ki k— ri 
M-T éz (8.78) 


Megfelelő pontosságú modell esetén a maradék hiba és a bemenet korrelálatlan, vagyis a keresztkorrelációs 
függvény értéke közel nulla bármilyen r késleltetés mellett 15. Egy tipikus keresztkorrelációs kapcsolatot mutat a 
8.19 ábra. 


8.19. ábra - A maradék hiba és a bemenet keresztkorrelációs függvénye 





( ; xeíiT) 
0.4 : 
Ü.2 ff § 
ü 
-Ü.2 
04 : a 
-25 -20 -15 -10 -5 ü a 10 15 20 2 


késleltetés (7) 


6.1.2. Kísérlettervezés 


A kísérlettervezés célja olyan feltételeket teremteni, melyek mellett kellő számú és a működést kellő mértékben 
reprezentáló minta begyűjtése lehetséges a modellezendő rendszerről. A feladatok egy jelentős részében a 
kísérlettervező kezében van, hogy a modellezendő rendszer milyen gerjesztő jelet kapjon, vagyis a bemeneti 
jelet a kísérlettervező határozhatja meg. Más feladatoknál a tanítás céljára történő adatok gyűjtésénél a bemenet 
megtervezésére nincs lehetőség, azt a modellezendő rendszer normál működése megszabja. 


A megfelelő gerjesztőjel, az ún. perzisztens gerjesztés (persistent excitation) megtervezése önálló tudomány. A 
gerjesztőjel megválasztásánál, még lineáris rendszereknél 15 sokféle szempont figyelembevétele szükséges 
[INar89] [L1u99], [Pin0l]. A gerjesztőjel megtervezésekor kell döntenünk, hogy a standard vizsgálójelek 
(impulzus, egységugrás, fehérzaj, multiszínusz, bináris álvéletlen jel, stb.) közül melyiket vagy melyeket 
alkalmazzuk. Nemlineáris rendszereknél a helyzet még bonyolultabb, hiszen nemlineáris rendszereknél az 
átvitel akár a jelszintnek 15 a függvénye. Rosszul megválasztott jelszintekkel létrehozott tanító készlet alapján 
konstruált dinamikus neurális modell más jelszinteknél jelentős hibával írja le a rendszer működését. Ezt 
illusztrálja a következő példa. 


8.3 példa 

Legyen a modellezendő rendszer a következő: 
d(k41)-03díkja0 ódíkr-11af[r(] (8.79) 
ahol 

f [1 s x FO 3 x —-Ü dx (8 80) 


A feladat NARX vagy NOE modellstruktúrával oldható meg. A tanításnál alkalmazható a NARX struktúra, míg 
a tesztelésnél már a modell saját kimenetét csatoljuk vissza, vagyis a tesztelés NOE architektúra mellett történik. 
A neurális modell létrehozásához egyenletes eloszlású véletlen bemenőjelet használva a 8.20 és a 8.21 ábrák a 
bemenő Jjelszint helyes megválasztásának fontosságára hívják fel a figyelmet. 


A két ábra-együttes a megtanított háló válaszát, a kívánt választ (a rendszer kimenete) és a maradék hibát 


mutatja olyan teszt mintasorozatra, ahol a tesztminta első 1000 pontja kis amplitúdójú véletlen jel, a második 
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1000 minta nagyobb amplitúdójú szinuszos Jel volt. A 8.20 ábra esetében a dinamikus hálót kis amplitúdójú, a [- 
1,1] intervallumban egyenletes eloszlású véletlen bemenőjel mellett létrehozott tanítómintákkal tanítottuk, míg a 
8.21 ábrán a gerjesztő véletlen Jel nagyobb amplitúdójú volt (egyenletes eloszlású jel a [-2,2] intervallumban). A 
teszt válaszokból jól látható, hogy az első esetben a háló csak kis amplitúdójú teszt bemenőjel mellett adott 
megfelelően jó választ, míg a második esetben a válasz a teszt mindkét részén, mind a kisszintű, mind a 
nagyobb szintű teszt bemenőjel mellett megfelelő. 


8.20. ábra - Kisszintű jellel tanított háló válasza 





modell kimenet 


ü 300 LÚGŐ 1500 2000 

















rendszer kimenet 


Új 500 1000 1500 2000 


hiba 





ú 300 LÜ00 1500 Z000 


8.21. ábra - Nagyobb szintű jellel tanított háló válasza 





modell kimenet 


Új J0Ú L000 1500 2000 





rendszer kimenet 


0 500 1000 1500 2000 
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hiba 





Ú) 300 1000 1500 2000 


6.1.3. A modellezés további lépései 


A megfelelő modellstruktúra és tanítókészlet megválasztását követően kerülhet sor a dinamikus háló 
paramétereinek meghatározására, a paraméterek becslésére — ami a háló tanítását jelenti —, majd ezt követi az 
eredmény kiértékelésére. Ezeknél a lépéseknél egyrészt az egyes dinamikus neuronháló architektúráknál 
bemutatott tanító eljárások általános és speciális szempontjait, illetve a hálók tesztelésével kapcsolatos általános 
megállapításokat és a maradék hiba elemzésére szolgáló eljárásokat kell figyelembe vennt. 


A fentiekből látható, hogy a tanítókészlet nemcsak a tanítási folyamatot befolyásolja, hanem a modellstruktúra 
kialakításánál 15 szerepe van, továbbá meghatározza azt 15, hogy mi lesz a modell érvényességi tartománya. Ez 15 
azt mutatja, hogy a modellezési folyamat egyes lépései szorosan összefüggenek egymással és a megfelelő 
modell kialakítása csak visszalépéseket 1s tartalmazó iteratív folyamat eredménye lehet. 


6.2. Szabályozás, modell alapú adaptív szabályozás 


Egyes feladatoknál a rendszeridentifikáció elsődleges célja egy vizsgált rendszer modelljének a létrehozása, más 
esetekben az identifikáció egy összetettebb feladat részeként jelenik meg. Az első esetre példaként hozható 
szinte bármely mérési feladat, mivel minden mérés a rendszer valamely modell-paraméterének a meghatározását 
(becslését) jelenti. Az identifikáció, mint részfeladat leggyakrabban szabályozási feladatokban jelentkezik. 
Ekkor a rendszer modelljére pl. a szabályozó algoritmus paramétereiek meghatározásához, általánosabban a 
szabályozó megtervezéséhez van szükség. (A BPTT eljárásnál bemutatott 8.1 példa 1s illusztrálja ezt.) 


A vezérlési alkalmazások célja olyan gerjesztőjel előállítása valamely rendszer meghajtására, hogy annak 
kimeneti jele valamilyen kritérium alapján a lehető legjobban közelítse a specifikált kimeneti jelet. (Lehet 
kritérium a Jó követés, de lehet pl. a minimális túllövés 15.) A szabályozáselmélet irodalma rendkívül sokféle — 
az alkalmazások nagyon különböző követelményeit kielégítő — módszert 15mer. 


A hagyományos adaptív szabályozási módszerek blokksémája a 8.22 ábrán látható. Ezek egy állítható 
paraméterekkel 15 rendelkező szabályozót, valamint ezen paramétereket állító adaptációs algoritmust 
tartalmaznak. Az algoritmus a kimeneti hiba, valamint a rendszer be- és kimenete (vagy ezek egy része) alapján 
állítja be a vezérlő paramétereit. 


A gyakorlatban igen gyakran találkozunk azzal az igénnyel, hogy a szabályozandó berendezést — a szakaszt — 
úgy gerjesszük, hogy a szabályozó-szakasz együttes a zavaró, változó környezeti hatások ellenére 15, egy 
specifikált referenciamodellhez hasonlóan viselkedjen (pl. a repülőgép úgy reagáljon a kormánymozdulatokra, 
ahogy azt a pilóták "szeretik"). Az ilyen környezetben használható szabályozásokat nevezzük modell alapú 
adaptív szabályozásnak (Model Reference Adaptive Control, MRAC). 


8.22. ábra - Az adaptív szabályozás 






gerjesztés 
szabalyoza rendszer 


A neurális hálózatok alkalmazása modell alapú adaptív szabályozásra sokmindenben hasonlít az identifikációra. 
Ha sikerül ugyanis úgy adaptálnunk a vezérlőnek használt neurális hálózat paramétereit, hogy az a szakasszal 
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együtt úgy viselkedjen, mint a referenciamodell, akkor megoldottuk a feladatot. Ez pedig tulajdonképpen azt 
jelenti, hogy a vezérlőből és a szakaszból álló modellel identifikáltuk a referenciamodellt. A különbség abban 
áll, hogy — az identifikációs feladattól eltérően — ebben az esetben nem a neurális hálózat, hanem a szakasz 
kimenetén képződik az adaptációhoz használható hiba. Ezt a hibát pedig közvetlenül nem lehet felhasználni a 
hálózat paramétereimek meghatározásához. 


Az MRAC irodalmából az derül ki, hogy a vezérlő paramétereinek közvetlen adaptálására jelenleg még 
hagyományos szabályozó, sőt lineáris szakasz esetén sincs módszer. (A vezérlő paramétereinek ilyen, azaz 
közvetlen állítását a szakirodalom közvetlen szabályozás (direct control) néven említi. Közvetlen szabályozást 
azért nem tudunk megvalósítani, mert a valódi, fizikai rendszeren nem tudunk gradienst visszaterjeszteni, ami 
pl. a hibavisszaterjesztéses algoritmus alkalmazásához szükséges lenne.) 


Jelenlegi tudásunk alapján a vezérlő paramétereit az ún. közvetett szabályozás (indirect control) módszerrel 
tudjuk állítani. Ennek lényege az, hogy a szakasszal párhuzamosan kapcsolunk egy identifikáló egységet, amely 
képes a szakaszt megfelelő pontossággal modellezni, ugyanakkor a vezérlő adaptálásához szükséges gradiens 


visszaterjesztésére 15 lehetőséget nyújt. Ha a gradiens információ már rendelkezésünkre áll, akkor megfelelő 
dinamikus tanító algoritmussal a vezérlőnek használt hálózat paraméterei meghatározhatók. 


8.23. ábra - A modell alapú adaptív szabályozás (MRAC) 


referenciamodell 


8.24. ábra - A közvetett szabályozás 
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6.3. Néhány tipikus alkalmazási terulet 


A következőkben — részben a fentiek illusztrálására — két konkrét alkalmazási területet, illetve néhány 
mintapéldát említünk meg röviden. A valóságos gyakorlati alkalmazások részletes elemzése meghaladja a könyv 
lehetőségeit. Egy valóságos , éles"? feladat megoldása a megoldandó problémák részletes elemzését 15 igényli, 
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így minden feladat valójában egyedi megfontolásokat igényel. A megoldások egyedi jellege ellenére azonban a 
különböző feladatokból bizonyos általános tapasztalatok ií5 levonhatók. A gyakorlati feladatok megoldásánál 
felmerülő legfontosabb általános kérdésekkel és tapasztalatokkal a 13. fejezet foglalkozik. 


6.3.1. Robotika 


Neurális hálózatok alkalmazására a robotika egy igazi , állatorvosi ló". Alkalmazásuk már csak azért 1s 
felvetődik e területen, mert minden robot erősen nemlineáris rendszer. Mivel a felmerülő problémák igen 
sokfélék, az új módszerek kipróbálására sok lehetőség adódik. Néhány a felvetődő területek közül: 
pályatervezés, pályakövetés, szenzor információk feldolgozása, autonóm eszközök intelligens irányítása, egyes 
stabilitási problémák, stb. Az alkalmazások egy részében a neurális hálózat szerepelhet egy korábban már ismert 
algoritmus, módszer realizációjaként 15 (pl. sebességi megfontolások miatt). Példaként álljon itt néhány konkrét 
robotikai alkalmazás. 


Isabelle Rivals és munkatársai egy olyan rendszert fejlesztettek ki, mely egy négykerék meghajtású Mercedes 
terepjáró automatikus irányítását látta el [Ri1v94]. A neurális megoldás szabályozta a gázadagolást, a fékezést, a 
kormánybeállító szervó rendszert annak érdekében, hogy az autó egy előírt pályán, előírt sebesség-profillal 
mozogjon változó környezeti feltételek (pl. széllökések, csúszós és különböző meredekségű útszakaszok) 
mellett. 


Simon Yang és Max Meng egy neurális robot-mozgás tervező rendszert ismertet [Yan00]. A feladat egy mobilis 
robot mozgásának irányítása ismeretlen, akadályokat is tartalmazó környezetben. 


Frank Lewis neuronhálót alkalmaz robot manipulátor irányítására ILew96]. A feladatok között egyebek mellett 
a manipulátor pozíciója és a manipulátor által kifejtett erő szabályozása szerepel. 


További sikeres alkalmazási példák a bőséges irodalomban (pl. [Bek93], [Pra96], [Sma06]) találhatók. 


6.3.2. Előrejelzés 


Számos gyakorlati feladat megoldásánál jelentkezik igény valamiféle előrejelzésre, jóslásra [Che04] (egy nagy 
haszonnal kecsegtető, bár igen nehéz terület pl. a valutaárfolyamok, tőzsdei árfolyamok előrejelzése). Az 
előrejelzési feladatok megoldása 15 alapvetően a neuronhálók modellező képességén alapul, hiszen minden 
jóslási feladat lényege az, hogy egy rendszer jövőbeli viselkedésének előrejelzése a múltbeli viselkedésének 
modellezése alapján, a rendszer eddigi "történetének" felhasználásával lehetséges. 


A jóslási feladat sok esetben egy idősor alakulásának előrejelzését jelenti. Valójában az idősor előrejelzés 15 
rendszermodellezési feladat; az idősor rendelkezésre álló része alapján próbáljuk annak a rendszernek a 
viselkedését minél pontosabban leírni, amely az idősor egyes értékeit előállítja. A rendszermodell birtokában az 
idősor folytatása, az előrejelzés már könnyen megoldható. 


Idősor előrejelzési feladatokat , hagyományos" megközelítés alkalmazásával, fejlett statisztikai eljárások 
felhasználásával 15 megoldhatunk sikeresen. A neuronháló alapú megoldások eredményei azonban arra 
engednek következtetni, hogy ilyen jóslási feladatoknál a neurális hálózatok alkalmazása jobb eredményre 
vezethet, vagy megfelelő eredményt könnyebben, kevesebb erőfeszítéssel nyerhetünk. Tulajdonképpen a jóslási 
folyamat során felépül egy jelmodell, amely megpróbálja leírni a vizsgált jelsorozatot. Ez a jelmodell neurális 
hálózatok alkalmazása során , automatikusan", a hálózaton belül épül fel. 


Az alábbiakban két tesztfeladatot mutatunk be. 
6.3.2.1. Mackey-Glass kaotikus folyamat előrejelzése 


A Mackey-Glass kaotikus folyamatot, mint gyakori benchmark problémát a modell-fokszám becslési 
eljárásoknál említettük (Id. 8.2 példa). A kaotikus folyamatok tesztfeladatként való felhasználását az indokolja, 
hogy ezen folyamatok jövőbeni alakulásának előrejelzése különösen nehéz, hosszútávú előrejelzésük pedig 
gyakorlatilag lehetetlen. 


Az előrejelzési feladatot itt 15 úgy fogalmaztuk meg, hogy a folyamatból származtatott diszkrét idősor 
pillanatnyi és régebbi mintái alapján a következő időponthoz tartozó érték előrejelzésére van szükség, tehát 
egylépéses előrejelzési feladattal van dolgunk. A megoldás NARX modell-osztály mellett, a 8.2 példában 
meghatározott modell-fokszám alkalmazásával, Gauss kernellel dolgozó LS-SVM hálózattal (c—2,6, C-1 
hiperparaméterek mellett) történt. A tanítókészlet 500 mintaszekvenciából állt. Az LS-SVM előrejelzésének 
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eredménye a 8.25 ábrán látható. Az ábra felső részén az eredeti idősor és az előrejelzés szerepel; a vékonyabb 
folytonos vonal az eredeti folyamat alakulását, a vastagabb a háló előrejelzését mutatja. Látható, hogy az 
előrejelzés és a folyamat valódi mintái az ábra szerinti felbontásban szinte egymásra kerülnek. A két görbe 
különbsége, az előrejelzési hiba látható az ábra alsó részén. Ezzel a megoldással gyakorlatilag ekvivalens 
eredményt érhetünk el LS7-SVM-mel 15. Ennek a megoldásnak az előnye ugyanakkor, hogy LS7-SVM-mel ritka 
megoldást érhetünk el lényegében a minőség romlása nélkül: az 500 mintaszekvenciából 55 szupport vektor 
elegendőnek bizonyult. 


8.25. ábra - A Mackey-Glass kaotikus idősor előrejelzése LS-SVM hálózattal. A felső 
ábrán a vékony vonal a folyamat időfüggvényét, a vastagabb vonal az előrejelzés 
eredményét mutatja. Az alsó ábrán az előrejelzési tartományban a hiba látható. 
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6.3.2.2. Santa Fe verseny 
1991 augusztusában az amerikai Santa Fe Institute írt ki egy nyilvános versenyt, amely során hat 
mintasorozatnak kellett megjósolni a folytatását. A szervezők egymástól teljesen eltérő jellegű feladatokat adtak 
ki, és semmiféle megkötést nem tettek az alkalmazható módszerre vonatkozóan. Maguk a szervezők 1s 
meglepődtek azon az eredményen, hogy a neurális hálózatokat alkalmazó megoldások mindegyik jel esetén 
jobbnak bizonyultak az egyéb — igen széles skálán mozgó — megoldásoknál [ We194]. 
A közzétett jelsorozatok az alábbiak voltak: 
e egy fizikai kísérlet (egy laboratóriumi NH; lézer), 
e számítógéppel generált véletlen sorozat, 
e svájci frank — amerikai dollár keresztárfolyamának változása, 


e asztrofizikai adatok egy változó törpecsillagról, 


e fiziológiás adatok, 


243 
XMLmind XSL-FO Converter 


Időfüggő (szekvenciális) hálók 


e mintavett jelsorozat J. S. Bach: "A fúga művészete" c. művének, utolsó, befejezetlen darabjából. 


Az adatok — mint látszik — tényleg eléggé eltérőek, még jellegüket tekintve 15. Azonban éppen ez a sokszínűség 
az, amely a neurális hálózatok alkalmazhatóságát látszik igazolni jóslási feladatok során. 


A Santa Fe versenyt követően jónéhány hasonló versenyt írtak, ki. Ezek a versenyek az utóbbi években a 
neuronhálókkal foglalkozó évenként megrendezésre kerülő legrangosabb nemzetközi konferenciához, az 
International Joint Conference on Neural Network (IJCNN)-höz kapcsolódnak. 


A gyakorlatban előforduló valódi jóslási feladatok megoldása során szinte mindig rendelkezésre áll bizonyos a 
priori információ a vizsgált jelenséget illetően. Ez az információ beépíthető a modellekbe a megoldás során, 
jelentősen Javítva a jóslás megbízhatóságát. Az a priori információ beépítése neurális hálózatokba (pl. a súlyok 
kezdeti inicializálása, stb. által) még nem teljesen megoldott, így ebből a szempontból még sok kutatásra van 
szükség. Mivel a Santa Fe verseny során a rendezők a jelekről semmilyen a priori információt nem tettek közzé, 
valószínűleg a hagyományos módszerek , nem tudták a legjobb formájukat hozni". 


A következőkben az első jelsorozat, az NH; lézer intenzitás előrejelzését megoldó neurális megoldást, mint 
ennek a feladatnak a győztesét mutatjuk be [Wan93]. A feladat nehézségét az jelenti, hogy a lézerjel intenzitása 
időben nem állandó, hanem folyamatosan és gyorsan pulzál a szélső értékek között, ráadásul a folyamat 
kaotikus jellegű. A közreadott kunduló jelszegmens, mint időfüggvény a 8.26 ábrán látható. 


A konkrét feladatban egy 1000 hosszú adatsor állt rendelkezésre, és ebből kellett megjósolni a lézerjel 
intenzitását a következő 100 időpillanatban. A verseny ideje alatt az idősorról semmiféle háttér információt nem 
tettek közzé. A versenyzőknek a priori ismeretek bevetése nélkül, puszta számok alapján kellett előrejelzőt 
építeni. (Természetesen ez a tiszta , fekete doboz" megközelítés tényleges gyakorlati feladatok megoldása esetén 
nem célszerű. Viszont előrejelző algoritmusok összehasonlítására kiválóan alkalmas, mivel így maguk az 
algoritmusok kerülnek összevetésre, nem pedig az a priori tudás beépítésének módjat.) 


A versenyben hibakritériumként a tényleges idősor empirikus szórásnégyzetével normalizált átlagos négyzetes 
hibát használták. Az alkalmazott megoldás az előző feladat megoldásához hasonlóan egylépéses predikcióra 
vezette vissza a középtávú előrejelzési feladatot. Ez azt jelenti, hogy a háló konstrukciójánál NARX 
modellosztályt alkalmaztak, melyet a tanítás után mint NOB modellt működtettek. Az idősor természete és a 
megcélzandó hibakritérium alapján nyilvánvaló volt, hogy a nagy intenzitás-visszaesések (lásd a 200-as, az 510- 
es és a 600-as pontok környékét) megjóslása kulcsfontosságú. Ez érdekes jelleget ad a feladatnak, mivel ilyen 
mintázatból a rendelkezésre álló idősorban mindössze 3 található. 


8.26. ábra - A Santa Fe lézer idősor tanítómintaként felhasználható első 1000 mintája 
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A versenygyőztes FIR-MLP hálózat a bemeneti és a kimeneti neuronon kívül 2 rejtett réteget tartalmazott, 
mindkettőben 12-12 neuronnal. Az első rejtett réteg bemenetei 25-öd fokú, míg a további két réteg bemenetei 5- 
ödfokú szűrők voltak. Ezeknek a paramétereknek a beállítása kereszt kiértékeléssel történt. Ilyen felépítés 
mellett a FIR-MLP hálózatnak összesen 1105 szabad paramétere volt, ami a tanító készlet méretéhez képest igen 
nagy szám. Erre a szerzők szerint azért volt szükség, mert a kísérletek azt mutatták, hogy kisebb hálózattal a 
hirtelen nagy visszaesések helyei nem jósolhatók meg elég pontosan. A sok szabad paraméter azt 1s 
eredményezi, hogy a távoli időpillanatokra adott becslések varianciája nagy lesz, de ez még mindig kevésbé 
növeli a hibát, mintha nem sikerült volna eltalálni a hirtelen intenziítás-visszaesés időpontját. Vegyük észre, 
hogy miközben a modell ténylegesen a NARX modellstruktúrának megfelelően épült fel, az alkalmazott háló 
architektúra FIR-MLP volt. A FIR-MLP azonban nem valódi bemenőjelet kapott (hiszen ilyen a feladatban 
nincs 18), hanem a kívánt válasz, a lézerjel régebbi értékeit. 


A háló kezdeti súlyait úgy állították be, hogy a súlyoknak 0 és 1 közötti véletlen értékeket adtak, majd minden 
neuron súlyát a bemenetszám négyzetgyökével fordítottan arányosan skálázták. A kimeneten lineáris neuront 
használtak, hogy a háló kimenete szélesebb értéktartományban mozoghasson. (A kimenet jövőbeli 
értéktartományát előre nem lehetett megbecsülni, amire normalizált kimenethez szükség lett volna.) Tanulási 
tényezőként 0.001-et használtak (heurisztikusan állították be így). A rendelkezésre álló idősor első 900 pontját 
használták tanításra, a maradék 100-on végezték a tesztelést. Egy teljes tanítás során tipikusan kb. 2000-szer 
haladtak végig a tanító készleten. 


Mivel a tesztelő készlet nem tartalmazott egyetlen hirtelen intenzitás-visszaesést sem, ezért ellenőrzésképpen a 
hálókkal az 550-es ponttól 1s indítottak 100 lépéses predikciókat. Ez némileg , csalás", de olyan kevés adat állt 
rendelkezésre, hogy a szerzők így döntöttek. Természetesen meg kell jegyeznünk, hogy ezeknél az 
ellenőrzéseknél az 550-es ponton túl a hálózat nem a tanító készlet elemeit kapta bemenetként, hanem a saját 
korábbi előrejelzéseit (NOB modell). A FIR-MLP-vel kapott előrejelzés eredménye a 8.27 ábrán látható. 


Érdekesség, hogy a verseny után közzétették a lézer idősor 10 000 pontból álló folytatását. A kísérletek azt 
mutatták, hogy a versenygyőztes hálózat akkor 15 Jó eredményeket produkált, ha nem az 1001-edik időpillanattól 
kezdve végezték el a 100 lépéses predikciót, miközben a hosszabbtávú előrejelzésnél a hiba drasztikusan nőtt. 
Ez azt jelenti, hogy a háló megtanulta a lézerjel dinamikáját, de a NOB architektúra miatt az előrejelzési hibák 
halmozódása miatt a soklépéses előrejelzés nem lehetséges. 
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8.27. ábra - A Santa Fe lézer idősor előrejelzése FIR-MLP-vel. A folytonos vonal a 
kaotikus folyamat valódi alakulását, a szaggatott a neuronhálóval történő előrejelzés 
eredményét adja meg. 


1solt 
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A feladatot megoldották LS-SVM-mel 1s [Suy02a]. A Gauss kernellel felépített LS-SVM alapú NARX modell 
50 régebbi minta alapján adott egylépéses előrejelzést. Az 50 elemű regresszor következménye, hogy a 
tanítópontok 50 elemű bemeneti vektorokból és a hozzájuk tartozó skalár kimenetekből álltak. Itt emlékeztetni 
szeretnénk, hogy SVM-nél a kernel trükk miatt a sokdimenziós bemeneti vektorok nem feltétlenül jelentenek 
hátrányt. LS-SVM-nél a megoldandó lineáris egyenletrendszer mérete nem függ a bemeneti dimenziótól. A 
hiperparamétereket, a Gauss kernel szélesség-paraméterét és a €C regularizációs együtthatót kereszt 
kiértékeléssel határozták meg. Az LS-SVM-mel elért megoldás minőségét tekintve teljes mértékben 
egyenértékű a FIR-MLP eredményével. 


Feladatok 


8.1 Egy FIR-CMAC hálónál határozza meg a kimeneti réteg szűrő együtthatóinak tanítási összefüggéseit 
gradiens módszer alkalmazása esetén. 


8.2 Konstruáljon FIR-RBF hálót, amelynek rejtett rétege megegyezik az eredeti RBF háló rejtett rétegével, a 
kimeneti rétegében pedig a súlyok helyett FIR szűrők találhatók. Határozza meg a rejtett réteg paramétereinek 
tanítási összefüggéseit, ha azokat 1s ellenőrzött tanítással, gradiens módszerrel kívánjuk meghatározni. (Id. még 
a 5.3 feladatot). 


8.3 A 8.12 (a) ábra szerinti modellnél N egy többrétegű perceptron, a kimeneten lévő lineáris dinamikus 
rendszer átviteli függvénye pedig a következő: 


H íz] -Üdz" 410z"40,5z 


Határozza meg az MLP tanítási összefüggéseit, ha dinamikus hibavisszaterjesztéses eljárást használ. 


8.4 Egy 3-bemenetű, két rejtett elemű, egykimenetű MLP hálózat súlyai helyén két megcsapolásos FIR szűrőket 
alkalmazunk. Határozza meg a háló virtuális megfelelőjét az időbeli kiterítés módszerét alkalmazva. Hány súly 
található a kiterített virtuális hálóban? 


8.5 Egy személyautót szeretnénk hátramenetben beparkoltatni egy járda mellett két autó közé. Konstruáljon 
olyan neurális kontrollert, amely a feladatot megoldja. Készítse el az autó neurális modelljét, majd a BPTT 
megközelítést alkalmazva hozza létre a neurális szabályozót, melynek a kocsi kormányzása a feladata. A 
feladatot két változatban készítse el: (1) a parkoló autók a járdára merőlegesen, (2) a járdával párhuzamosan 
állnak. 


8.6 Az alábbi összefüggéssel megadott Mackey-Glass kaotikus idősor előrejelzésére alakítson ki dinamikus 
neurális rendszert: 
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N2x[k- ri 
14 ax" [4-r] 


, 


x[k-4li --0.lx[k1-k 


ha z —30 és a kezdeti érték 70-09 ha OSkér 4 feladat során a folyamat 500 pontját felhasználva kell a 


következő 6-10 pont előrejelzését megoldania. Próbálja megoldani a feladatot LS-SVM-mel. Ehhez határozza 
meg a modell struktúráját (modellosztály és modell-fokszám), majd konstruálja meg a kernel gépet. A 
megtanított hálót befagyasztva működtesse a hálót rekurzív módon a következő 100 pont jóslására. Vizsgálja 
meg a hiba alakulását az eredeti idősor adataihoz viszonyítva. Rajzolja fel mind az eredeti, mind a becsült idősor 


x[k]) ÉS xÍ[k4l] 


fázisdiagramját (az összetartozó minták kapcsolatát egy kétdimenziós ábrán). 


8.7 Az alábbi logisztikai egyenletnek nevezett összefüggéssel adott a Feigenbaum kaotikus idősor: 


xr(k1)- 4r([1- (ma) 


? 


Határozza meg a modell fokszámát a Lipschitz index segítségével. Vizsgálja meg a Lipschitz index alakulását, 
ha a mintákat additív Gauss Zaj terhelt. 


8.8 Az előző feladat eredményeit felhasználva konstruáljon olyan dinamikus neuronhálót, amely modellezi a 
kaotikus folyamat viselkedését. Generáljon megfelelő számú mintát egy olyan tanítókészlethez, amelynek 
segítségével megtanított dinamikus neuronháló az idősor előrejelzését 20 lépésre előre meg tudja adni. 
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Az eddigi fejezetekben különböző ellenőrzött tanulású neuronhálókkal foglalkoztunk, melyek felépítésükben, 
tanításukban, részben a képességeikben és az alkalmazási területeiket tekintve is eltértek egymástól. A 
különbségek ellenére az eddigi megközelítéseknek volt egy közös vonása: bármely hálót 1s vizsgáltuk, ezt mint 
különálló architektúrát tekintettük, mely önmagában lehet képes bizonyos feladatok megoldására. 


Bonyolult feladatok megoldásánál azonban — függetlenül attól, hogy a feladatot milyen eszközökkel kívánjuk 
megoldani — a nagy komplexitás miatt célszerű a feladat dekomponálása részfeladatokra, melyek külön-külön 
könnyebben megoldhatók, és a részmegoldásokból, azok aggregálása útján nyerhető a teljes megoldás. A 
részekre bontás eredményeként az egyes részfeladatok számítási komplexitás szempontjából jóval egyszerűbbek 
lehetnek, mint a teljes feladat, sőt az esetek nagy többségében a részfeladatok együttesen 15 kisebb számítási 
kapacitást igényelnek mintha az eredeti feladatot egyben próbálnánk megoldani. Az , oszd meg és uralkodj" elv 
a mérnöki feladatmegoldás egyik legfontosabb alapelve, és neuronhálós megoldásoknál 15 sikeresen 
alkalmazható. A feladatmegoldás általános mérnöki megközelítésén túl — utalva a neuronhálók biológiai 
eredetére — a moduláris konstrukció alkalmazásának fontosságát a biológiai neurális rendszerek felépítésének 
tanulmányozása 1s alátámasztja. 


Egy feladat dekompozíciója sokféleképpen elvégezhető. A funkcionális dekompozíció mind a mérnöki 
gyakorlatban, mind biológiai rendszerekben gyakran alkalmazott (megtalálható) módja a feladat részekre 
bontásának. További lehetőség, ha a problémateret a tér nagysága miatt bontjuk részekre, és minden egyes 
részterülethöz önálló megoldást készítünk, melyek integrálása biztosítja a teljes feladat megoldását. Az egyes 
részfeladatokat modulok oldják meg, a teljes megoldást ezen modulok összessége — kiegészítve valamilyen 
integráló modullal — szolgáltatja. 


Erre a megközelítésre láthattunk 15 már példát az 5. fejezetben, ahol a bázisfüggvényes hálócsaládba tartozó 
CMAC háló komplexitásának csökkentésére alkalmaztunk moduláris felépítést. A különböző moduláris CMAC 
hálók sokdimenziós feladatoknál a bemenet komponensei szerint végeztek feladatdekompozíciót (SOP 
struktúra, HCMAC). Valójában tehát ott 15 a problématér szeparálása eredményezett egyszerűbb részfeladatokat. 
A bemeneti tér részekre bontásán alapuló eljárást a következőkben 15 fogunk látni. Itt azonban a bemeneti tér 
felbontása a kívánt válaszok alapján történik. 


A moduláris feladatmegoldás a komplex feladatok megoldásának természetes módja. Amennyiben egy összetett 
feladatot részfeladatokra bontunk, a részfeladatokat megoldó modulok együttműködése, kooperációja biztosítja 
a teljes feladat megoldását. A részekre bontás nem minden esetben jelenik meg explicit módon a 
feladatmegoldás során. Olyan megoldás 15 elképzelhető, amikor több modul 15 megpróbálja a teljes feladatot 
megoldani, miközben ezek a modulok valamilyen szempontból eltérő megközelítést alkalmaznak. Az eltérő 
megközelítés következtében az egyes megoldások kisebb-nagyobb mértékben eltérnek egymástól. Bár 
mindegyik modul a teljes feladatot oldja meg, az egyes megoldások a teljes feladat más-más részein lehetnek 
jobbak. A megoldások kombinációja — a teljes feladatra nézve — bármelyik modul megoldásánál 15 jobb lehet. 
Az eredményt Itt 15 a modulok kooperációja révén nyerjük, azonban itt nem határolódnak el mereven az egyes 
modulok által megoldott részfeladatok, a határok inkább elmosódottak. 


Olyan megoldási stratégia 15 lehetséges, hogy egy részfeladatot több modul old meg, és az egyes megoldások 
versenyeznek egymással. Itt a moduláris megoldás tipikusan nem együttműködés, hanem versengés 
eredményeképpen születik. 


A kétféle stratégia, az együttműködés és a versengés egy komplex rendszeren belül egyszerre 15 megjelenhet. 
Ilyen eset lehetséges, ha a teljes feladatot több modul oldja meg, azonban az egyes megoldások aggregálása 
különbözőképpen történik. A teljes problématér egyes tartományain az eredő megoldást egy-egy különálló 
modul megoldása egymaga is jelentheti, míg más tartományokban az egyes modulok eredményeinek 
kombinációjaként nyerhető a megoldás. Ha egy modul önmagában szolgáltat eredményt, akkor ennek a 
modulnak a többivel szemben jobb eredményt kell adnia. A megoldást szolgáltató modul versengés 
eredményeképpen kerül kiválasztásra. Ha az eredmények kombinációjaként kapjuk a teljes megoldást, akkor az 
egyes modulok együttműködésére van szükség. Hogy egy adott rendszeren belül a kétféle megközelítés közül 
melyik érvényesül, az függhet attól, hogy egy konkrét eset a problématér mely tartományába esik. 


A fejezet célja, hogy a moduláris megközelítés általános előnyeit és néhány konkrét moduláris hálóarchitektúrát 
mutasson be. A bemutatott moduláris neurális architektúrák között található olyan, amely elsősorban 
osztályozási feladatok megoldására szolgál, és olyan 15, amely mind osztályozásra, mind regressziós feladatok 


248 
XMLmind XSL-FO Converter 


Moduláris hálók 


megoldására alkalmazható. Elsőként az ún. feladat dekompozíciós (task decomposition) megoldást tárgyaljuk, 
majd a szakértőegyüttesekkel foglalkozunk. 


A feladat dekompozíció a teljes feladat diszjunkt részfeladatokra bontását jelenti, ahol az egyes részfeladatok 
már könnyebben megoldhatók. A feladat dekompozíciója itt statikus és nem 1s tartozik a háló feladatai közé. 
Ennél a megoldásnál versengésről semmiképpen nem beszélhetünk, együttműködés i1s csak annyiban van, hogy 
szükség van a részmegoldások integrálására. Ezt azonban a megtanított hálók kialakításától függetlenül, a 
dekompozíció módja határozza meg. 


A szakértőegyüttesek valóban együttműködő-versengő modulokból épülnek fel. Itt a feladat részekre bontása 15 
— amennyiben a megoldás alkalmaz dekompozíciót — és a modulok eredményének egyesítése 15 a komplex 
moduláris architektúra feladata. 


A moduláris neuronhálók kialakítási lehetőségei igen sokfélék. Ez már abból 15 következik, hogy egy feladat 
igen sokféleképpen dekomponálható részfeladatokra és a különböző részmegoldások egyesítése 15 sokféle 
megközelítés alkalmazásával lehetséges. A moduláris neuronháló-kialakítási lehetőségek kimerítő bemutatására 
ezért a fejezet nem vállalkozik. Helyette néhány, a gyakorlatban 1s sikerrel alkalmazható megoldást mutat be. 


un 4, 


1. Moduláris háló kialakítása feladat dekompozíció 
alapján 


Egy komplex feladat dekompozíció útján történő megoldására számos lehetőségünk van. Az egyik 
legkézenfekvőbb eljárás, hogy mielőtt a feladatot valamilyen eszközzel megpróbálnánk megoldani, előbb 
funkciók szerint részekre bontjuk, és csak a részfeladatok külön-külön történő megoldásával foglalkozunk. Az 
előzetes részekre bontás a feladat részletes ismerete alapján lehetséges. Ilyenkor a dekompozíció mindig 
feladatfüggő, ennélfogva csak akkor alkalmazható, ha a problémáról elegendő előzetes ismeret áll a 
rendelkezésünkre. Jó példa erre az előző fejezetben bemutatott pótkocsis teherautó tolatási feladat egy 
lehetséges megoldása [Jen93]. E szerint célszerű különválasztani a pótkocsi irányának meghatározását a 
(Id. 8.1 példa) jóval egyszerübben megoldhatók — az iránymeghatározáshoz például egyetlen perceptron 15 
elegendő —, továbbá az egyes részfeladatokat egymástól függetlenül, párhuzamosan 1s meg lehet valósítani. 


A dekompozíció egy másik lehetősége, ha a feladat felbontását előre nem végezzük el, az a tanulás során 
automatikusan alakul ki. Erre a fejezet későbbi részében találunk majd példát. 


A következőkben egy olyan eljárást mutatunk be, mely a priori ismeret nélkül 15 hatékonyan dekomponálja a 
feladatot, mégpedig úgy, hogy a kapott részfeladatok kisebbek és jóval egyszerűbbek, mint az eredeti feladat. 
Ráadásul az egész eljárás nagyon egyszerű 15. Az egyetlen korlátozás, hogy a dekomponálásnak ez a megoldása 
csak osztályozási problémáknál alkalmazható. 


Osztályozási feladatoknál egy többosztályos feladat természetes dekompozíciója lehet, ha a feladatot 
kétosztályos feladatok együttesére bontjuk fel. Így pl. egy K-osztályos feladat felbontható K darab olyan 
kétosztályos feladatra, ahol a K osztály egyikét szeretnénk megkülönböztetni a maradék K-1 osztálytól. Itt tehát 
annyi kétosztályos részfeladatot tudunk definiálni, ahány osztály az eredeti feladatban megkülönböztethető. Az 
ilyen dekompozíció hátránya, hogy a származtatott kétosztályos feladatok az adatok (tanítóminták) számát 
tekintve nagyon kiegyensúlyozatlanok lehetnek. Ha ugyanis feltételezzük, hogy az eredeti feladat K osztályának 
mindegyikébe közel azonos számú tanítópont tartozik, akkor a származtatott kétosztályos feladatoknál a két 
osztály egyikébe (X—1)-szer annyi minta esik, mint a másikba. A kiegyensúlyozatlanság a tanítást nehezítheti, 
az egész tanítási folyamatot jelentősen lelassíthatja. 


A kiegyensúlyozatlanság elkerülhető, ráadásul a dekompozíció eredményeképp kapott osztályozási feladatok 
még egyszerűbbekké is válnak, ha a K-osztályos feladatot olyan kétosztályos részfeladatokra bontjuk, ahol egy 
részfeladat az eredeti K osztályból kizárólag két osztály szétválasztására irányul, miközben a maradék K7-—2 
osztállyal nem 15 foglalkozunk [Lu99]. Ha C., C:,. . ., Cx-val jelöljük a megkülönböztetendő K osztályt, akkor az 
egyszerűbb kétosztályos feladatokra bontás azt jelenti, hogy egy kétosztályos feladat során a C; és a C; osztályt 
szeretnénk megkülönböztetni egymástól, ahol iz, j—1,...,K, i£j, és természetesen minden ij párt csak egyszer 
veszünk számba. Egy adott kétosztályos részfeladat megoldásánál a maradék K-—2 osztály tanítópontjait 
figyelmen kívül hagyjuk. Ha továbbra is feltételezzük, hogy az egyes osztályokba közel azonos számú 
tanítópont tartozik, akkor a dekompozíció eredményeképp kapott egyszerű kétosztályos feladatoknál mindkét 
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osztályt hasonló számú tanítópont reprezentál, a tanítókészlet a dekompozíció után 15 kiegyensúlyozott és az 
eredeti feladatban szereplő osztályok számától (K-tól) független marad. 


Az eljárás részletesebb bemutatásához induljunk ki abból, hogy rendelkezésünkre áll egy 


Z 7 )z ha -((xdj ). 


1-1 (91) 


tanítókészlet", melyet a K osztálynak megfelelően K diszjunkt részhalmazra bontunk. 


F b : 
2 - íz he kéj (9.2) 


Az eddigi jelöléseknek megfelelően "! egy bemeneti vektor, d, pedig a hozzá tartozó kívánt válasz, a felső index 
pedig az osztálybesorolást jelző címke. 


A javasolt dekompozíció szerint a feladat K(K—1) egyszerűbb kétosztályos részfeladatra bontható. Ebben még 
van redundancia, hiszen C; megkülönböztetése C-től megoldja a két osztály fordított irányú megkülönböztetését 
Is. A felesleges ismétlések elkerülésével K(K—-1)/2 egyszerűbb kétosztályos feladatunk lesz. Kétosztályos 


1 d, e(0.1] 


feladatnál a kívánt válasz két lehetséges érték valamelyike lesz, tehát p . A gyakorlatban azonban 


általában megengedjük, hogy a kívánt válasz: ő 016 legyen ahol e egy kis pozitív szám. Ekkor a C;, C; 


osztálypárhoz tartozó mintakészlet az alábbi módon definiálható: 


. 3 . Tis 
Zjj -[9 1 e)jV L.J (2) j VEN NEE al — s Ti 
; 1-1 ; !-] (9.3) 

vagyis a C; osztályba tartozó mintákra a kívánt válasz közel 1, a C-be tartozókra pedig közel 0 lesz. (Ez azért 
előnyös a (0,1; kívánt válasz értékhalmazzal szemben, mert a hálók és tanító eljárások egy részénél a 0, illetve 
az 1] környzetében nagyon lelassul a tanulási sebesség.) Vegyük észre, hogy Z;; csak a C; és a C; osztályba 
tartozó mintapontokat tartalmazza, a maradék K7—2 osztály pontjai az elemi kétosztályos feladat megoldásánál 
nem kerülnek felhasználásra. 


Ezt a dekompozíciót K—3 mellett illusztrálja a 9.1 ábra. Az eredeti háromosztályos feladatot az ábra szerint 
három elemi kétosztályos feladatra bontottuk, miközben mindegyik esetben a harmadik osztály pontjait 
figyelmen kívül hagytuk. 


A fenti dekompozíció nem minden esetben elegendő ahhoz, hogy az elemi kétosztályos feladatok kellően 
egyszerűek legyenek. Bizonyos problémáknál a megkülönböztetendő két osztály elválasztó felülete lehet 
nagyon bonyolult is. Ilyen esetekben az előzőekben kapott egyszerű kétosztályos feladatokat érdemes még 
tovább bontani. Hasonló esettel állunk szemben, ha már az eredeti probléma is kétosztályos, de nehéz volt. A 
tovább-bontás azt jelenti, hogy az egyes osztályokba tartozó tanító halmazokat további részhalmazokra bontjuk, 
és ezekre a részhalmazokra fogalmazunk meg kétosztályos feladatokat. Ez a felbontás — szemben az előzővel — 
már nem egyértelmű, hiszen bármely, adott osztályhoz tartozó pontkészlet tetszőleges módon dekomponálható. 


9.1. ábra - Egy háromosztályos feladat felbontása 3 egyszerű kétosztályos feladatra 


! Ebben a fejezetben az eddigiektől eltérően a mintapontok számát nem P-vel, hanem L-lel jelöljük. Ennek oka, hogy a fejezetben tárgyalt 
egyes moduláris rendszereknél valószínűségi értelmezés, vagy valószínűségek meghatározása is szükséges, és P-t a megfelelő 
sűrűségfüggvények vagy valószínűségek jelölésére használjuk. 
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Cj 


c 





Tételezzük fel, hogy az i-edik osztályhoz tartozó, (9.2) által definiált mintahalmazt tovább bontjuk M; 
részhalmazra (1£ M)). A C; osztályhoz tartozó j-edik ilyen részhalmaz az alábbi módon definiálható: 


ah ki EN agyő jel 


; h..,É 
1-1] 


i 
! 21 , (9.4) 


d 
ahol E; jelöli ennek a részhalmaznak az elemszámát. A részhalmazokra igaz kell legyen, hogy 


MM; 3) M; [3] 
EKE EZ éa Ef sas teki 

J-l! Fgg . Az így definiált tanító részhalmazok segítségével definiálhatjuk a 
kétosztályos osztályozási feladatokat. A C; osztály u-adik részhalmaza és a C; osztály v-edik részhalmaza által 


képezett kétosztályos feladat tanító készlete ennek megfelelően: 


rdlesseft oké 


eles Kés dj at elyzegő v7-1,..., AM ; (9.5) 


A dekompozíció akár addig 15 folytatható, amíg a részhalmazokban csak egy-egy mintapont marad. Ez azt 
jelenti, hogy az így definiált elemi osztályozási feladatok már biztosan megoldhatók lineáris szeparálásra 
alkalmas eszközökkel 15. Természetesen ilyen mértékű felbontásra nincs minden esetben szükség. 


Az elemi osztályozási feladatok megoldása után a következő lépés az eredmények integrálása. Az aggregálásnál 
két esetet kell megkülönböztetni. 


Az első esetben legyenek olyan osztályozó moduljaink, ahol mindegyik feladata az, hogy adott C; osztályba 
tartozó mintákat mindig más-más C;, jJ—1,2,...,K, jAi osztályba tartozó mintáktól különböztessen meg. Egy ilyen 
osztályozó modulra az érvényes, hogy a tanításhoz a (C;, C)) osztálypárhoz tartozó, a (9.3) összefüggés által 
definiált mintakészletet használjuk, vagyis az osztályozó tanításánál a kívánt válasz akkor lesz 1—e, ha a 
tanítóminta a C; osztályba tartozik és akkor lesz e, ha a C-be. 


Az ilyen típusú modulok eredményeinek integrálására a MIN művelet szolgál. A MIN műveletet megvalósító 
modul feladata, hogy a bemenetére kerülő értékek minimumát adja válaszul: 


YMIN — MINÉG , X2,... XI (9.6) 


ahol xi, x2, ..., xv jelölik a MIN modul bemeneteit, vu pedig a modul kimenetét. A MIN modullal egyesített 
osztályozók eredő válasza csak akkor lesz 1—e, ha a MIN modul minden bemenetére 1—e kerül, vagyis, ha a 
MIN modult meghajtó minden osztályozó válasza 1—e. Az integrált osztályozó tehát akkor fog egy mintát a C; 
osztályba besorolni, ha a MIN modullal összefogott összes osztályozó a C; osztályba sorolja az adott mintát. 


A második esetben olyan moduljaink vannak, melyek feladata, hogy egy adott C; osztály mintakészletének 
különböző részhalmazaiba tartozó mintákat különböztesse meg valamely más osztályba tartozó mintáktól. 
Ezekre az osztályozó modulokra az érvényes, hogy a tanításukhoz a C; osztály v-edik és a C; osztály u-adik 
részhalmazaihoz tartozó, a (9.5) összefüggés által definiált mintakészleteket használjuk, vagyis mindegyik 
osztályozó tanításánál a kívánt válasz akkor lesz e, ha a tanítóminta a C; osztály valamelyik v részhalmazába 
tartozik. 
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Az ilyen típusú modulok eredményének integrálására a MAX művelet szolgál. A MAX műveletet megvalósító 
modul feladata, hogy a bemenetére kerülő értékek maximumát adja válaszul: 


VMAX 7 MAKI, X2,... XI (OT) 


ahol a modul bemenetei most is az Xi, X2, ..., Xw értékek, kimenete pedig Ywax. A MAX modullal egyesített 
osztályozók eredő válasza akkor lesz e, ha a MAX modul egyik bemenetére sem kerül 1—e. Ehhez a MAX 
modult meghajtó minden osztályozó válasza e kell legyen, ami egyben azt is jelenti, hogy a MAX modult 
meghajtó minden osztályozó modulra a C; osztály valamelyik v részhalmazába tartozó minta kerül. 


Ha a MIN és a MAX műveletek elvégzésére alkalmas modulokat kiegészítjük egy INV modullal, akkor az 
előzőekben bemutatott bármilyen dekompozíció eredményeként kapott elemi kétosztályos osztályozó modulok 
integrálása felesleges redundancia nélkül lehetséges. Az INV modul egybemenetű, egykimenetű modul, 
melynek feladata a bemenetére kerülő érték invertálása, vagyis, ha az INV bemenete e, a kimenete 1—e kell 
legyen, és fordítva, 1—e bemenetre e választ kell adjon. Ez teszi lehetővé, hogy ha csak az osztályok szerint 
végezzük a dekompozíciót, egy K osztályos osztályozó helyett elegendő K(K-1)/2 kétosztályos osztályozót 
alkalmazni. 


Ha az egyes osztályokat még tovább bontjuk és a (9.5) összefüggés szerinti mintahalmazokkal dolgozunk, akkor 
az INV modulok használata következtében az elemi kétosztályos osztályozók száma 


E E 
22 MM ; 
Aja 
jei -ről (9.8) 


ASE] -re (9.9) 

redukálható, ahol M, a C, (k-1,2, . . ., K) osztály részhalmazainak a száma. 

Könnyen észrevehető, hogy az integráló modulok feladata hasonló a logikai ÉS, VAGY és NEM műveletekhez. 
Ha az egyes osztályozó modulok bináris kimenetet szolgáltatnak, akkor az integráló modulok kimenetelt 
valóban az osztályozók kimeneteinek logikai ES, VAGY, illetve NEM kapcsolatait felhasználva kaphatjuk meg. 
Az 15 könnyen belátható, hogy az INV művelet mellett valójában elegendő kizárólag a MIN vagy kizárólag a 


MAX művelet, bár sok esetben egyszerűbb a modulok összekapcsolása, ha mindkettő rendelkezésre áll. A 9.2 
ábrán a 9.1 ábra háromosztályos feladatának moduláris megoldása látható. 


9.2. ábra - Az 9.1 ábrán látható háromosztályos feladat moduláris megoldása 
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hT MIN Í : 


bemenet 








— -oDb 


Az alábbiakban egy kétosztályos feladat kapcsán mutatjuk be a feladatdekompozíció egy speciális alkalmazási 
lehetőségét. A feladat a 9.3 ábrán látható. Az ábrából az is nyilvánvló, hogy a kétosztályos feladat lineárisan 
nem szeparálható. A feladatdekompozíciós eljárással azonban olyan elemi kétosztályos feladatokra bontható, 
ahol ezek az elemi feladatok már lineáris szeparálással (pl. egy egyszerű perceptronnal) megoldhatók. Az ábra 
azt 15 mutatja, hogy — ideális esetben — milyen tartományok megkülönböztetése szükséges a feladat 
megoldásához. Az ideális eset itt azt jelenti, hogy az elválasztó egyenesek a mintapontoktól egyforma és a 
lehető legnagyobb távolságban helyezkednek el. Ilyen megoldást garantáltan egy lineáris SVM-mel érhetünk el, 
egy egyszerű percetrontól azonban csak az várható, hogy a két különböző osztályba tartozó pontok között a 
pontokat hibátlanul elválasztó, de nem feltétlenül ideális elhelyezkedésű egyeneseket határozzon meg. 


9.1 Példa 


A következő, 9.4 ábrán azokat a lépéseket követhetjük, melyek a moduláris kialakítás eléréséhez vezetnek. 
Ugyancsak látható, hogy az elemi kétosztályos osztályozók integrálásához milyen modulokra van szükség. 


A teljes moduláris osztályozó rendszer felépítését a 9.5 ábra mutatja. A moduláris felépítésnél azt tételeztük föl, 
hogy az egyes osztályozó modulok és a teljes hálózat 15 akkor vesz fel magas értéket, ha a fekete pontokkal 
jelölt bemenetek kerülnek a hálóra. 


9.3. ábra - Egy egyszerű, lineárisan nem szeparálható kétosztályos feladat (a zöld tanító 
mintapontok az egyik, a feketék a másik osztályba tartoznak) 
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9.4. ábra - A moduláris kialakítás lépései (az egyes részmegoldások a sötéttel jelzett 
területeken adnak közel 1 értéket, a világossal jelölt területeken közel 0 értéket) 





9.5. ábra - A 9.3 ábrán látható feladat dekompozíciónak megfelelő moduláris háló 
felépítése 
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bemenet kimenet 





A feladatdekompozíció sikerrel alkalmazható összetett gyakorlati feladatok megoldására. Egy sikeres példaként 
említhetjük a kézzel írott számjegyek felismerésére kidolgozott és a 7.1.2 alfejezetben már bemutatott megoldást 
Is, amely ezt a megközelítést alkalmazta, hiszen a 10 számjegy felismerését nem egy 10-osztályos osztályozó 
hálózattal, hanem 10x9/2—45 egyszerű kétosztályos osztályozóval oldotta meg. Az egyes elemi kétosztályos 
osztályozók mindig két osztályt (számjegyet) próbáltak egymástól megkülönböztetni, miközben a maradék 
nyolc további osztály mintapontjaival egyáltalán nem foglalkoztak. Ez a megoldás — mint láttuk — egy nagyon 
egyszerű háló architektúrát eredményezett, hiszen az elemi kétosztályos osztályozók egyszerű perceptronok 
voltak. A megfelelő osztályozó modulok eredményeinek integrálása ott ÉS kapukkal volt megoldva, ami 
megfelel a MIN műveleteknek. 


2. Szakértőegyuüűttesek 


Az előző részben olyan moduláris háló kialakítást láttunk, ahol egy feladatot részfeladatokra bontva és minden 
egyes részfeladathoz egy önálló hálót rendelve kaptunk moduláris neurális architektúrát. A következőkben olyan 
együttműködő hálókkal foglalkozunk, amelyek mindegyike a teljes feladatot oldja meg. 


Az ún. hálóegyüttesek általában több háló eredményének lineáris kombinációjaként állítják elő az egyes 
részeredményekből az aggregált választ. A lineáris kombináció hasznossága intuitíve 15 alátámasztható, azonban 
megfelelő feltételek mellett a megoldás indokoltsága formálisan 1s igazolható. 


A lineáris kombináció kialakítása — egyszerűsége ellenére — többféleképpen történhet. A következőkben előbb 
egy fix súlyozású lineáris kombinációt alkalmazó megoldást mutatunk be, ahol a súlyok optimális értékének 
meghatározására törekszünk, majd azt mutatjuk meg, hogy megfelelő feltételek mellett az eredő megoldás az 
egyes megoldások bármelyikénél 15 jobb lehet. Végül ennek a résznek a befejezéseként egy olyan moduláris 
architektúrát mutatunk be, ahol a feladat dekomponálása, illetve az egyes modulok eredményeihez rendelhető 
súlyok meghatározása a teljes háló konstrukció részeként , automatikusan", a háló tanítása során alakul kt. 


2.1. Hálók optimális lineáris kombinációja 


A hálók lineáris kombinációjának alapötletét az adta, hogy egy gyakorlati feladat megoldásánál szinte minden 
esetben több hálót konstruálunk, és ezek közül választjuk ki a legjobbat. Ennek alapvető oka, hogy az 
, optimális?" hálót általában nem tudjuk megtervezni. Egy adott feladat megoldására alkalmas háló 
konstrukciójának nem minden lépését tudjuk a feladatból egyértelműen származtatni, így azt sem tudjuk 
általában eldönteni, hogy mit tekinthetünk optimális hálóarchitektúrának. Egy megfelelően jó megoldás 
eléréséhez ezért valójában több, esetenként meglehetősen sok, kisebb vagy nagyobb mértékben eltérő hálót 
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hozunk létre. Ezek a hálók különbözhetnek a felépítésükben — akár eltérő hálótípusokkal (pl. MLP, RBF, SVM, 
stb.) 15 próbálkozhatunk —, de lehet, hogy csak a háló méretében vagy a tanítás módjában, esetleg a felhasznált 
tanítókészlet összeállításában van különbség. Ha csak a , legjobb" hálót tartjuk meg és a többit eldobjuk, akkor a 
, mellékeredményeket" csak részben hasznosítjuk. A mellékeredmények ugyanis nemcsak abból a szempontból 
tekinthetők fontosnak, hogy kialakításuk a végleges háló konstrukcióját segíti, hanem abból a szempontból is, 
hogy az egyes megoldások a teljes feladat bizonyos tartományain akár a végleges megoldásnál jobb eredményt 
1s nyújthatnak. Ezt a , képességüket" 15 célszerű hasznosítani. 


A hálók lineáris kombinációjánál több háló kimenetének súlyozott összegét képezzük [Has971: 


Mt 
yíxaj- s agyi (x] 
j70 (9.10) 


ahol az a; , J-0, 1, ..., M együtthatók a lineáris kombináció súlytényezőt. 
A teljes moduláris háló a 9.6 ábrán látható. 


A hálóegyüttesben M modul található, a kimeneti súlyozott összegzésben pedig még egy eltolásérték (bias) 15 


szerepel (y(x-l1 és ön képviseli az eltolásértéket). Az ábrából látható, hogy a hálók lineáris kombinációja úgy 
is tekinthető, mint egy olyan többrétegű háló, melynek az utolsó kimeneti rétege lineáris. Ha az egyes modulok 
MLP-k, akkor az egész moduláris kialakítás egy többrétegű perceptron. A moduláris kialakítás azonban egy 
általános többrétegű perceptronhoz képest több lényeges eltérést mutat. Egyrészt az egyes modulok kialakítása 
egymástól függetlenül történik, másrészt — ahogy ezt a továbbiakban látni fogjuk — a kimenő, integráló réteg 
súlyait nem a hagyományos módon és nem a modulok tanításával együtt tanítjuk. 


Ha a hálóegyüttes kialakításánál a fenti gondolatmenetből indulunk ki, akkor hálók lineáris kombinációjánál 
különállóan megtanított hálókból építjük fel a moduláris hálót. Ez azt jelenti, hogy az egyedi hálók tanításán túl 
további feladatokat kell megoldani. Meg kell határozni, hogy hány modulból álljon a moduláris rendszer és azt 
is, hogy a rendelkezésre álló egyedi hálók közül melyek kerüljenek kiválasztásra, majd meg kell határozni a 
lineáris kombináció súlyait. 


9.6. ábra - Hálók lineáris kombinációja több-bemenetű — egykimenetű esetben 
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2.1.1. Az egyedi hálók kiválasztása 


Az egyedi hálók számának meghatározására nincs általános módszer. A hálóegyüttes létrehozásának elsődleges 
célja a megoldás minőségének javítása, így csak a teljes moduláris háló kiértékelése alapján dönthetjük el, hogy 
adott számú modulból felépülő hálóegyüttes egy adott feladat megoldása szempontjából megfelelő-e vagy sem. 
Egyfelől azt mondhatjuk, hogy a modulok számának növelése a teljes rendszer általánosítóképességét várhatóan 
Javítja, másfelől a túl sok modul túl sok erőforrást igényel, ami az alkalmazás korlátja 1s lehet. 


Az általánosítóképesség javulását intuitíve a kimeneti súlyozott összegző átlagoló hatásával magyarázhatjuk, 
másrészt a következő alfejezetben — legalábbis bizonyos speciális súlyozás esetére — formálisan 1s 
alátámasztjuk. A túl sok modul összességében túl sok szabad paramétert jelent, és — amint ezt az előző 
fejezetekben láttuk — a túl sok szabad paraméter általában túlilleszkedésre vezethet. A túlilleszkedés veszélye a 
hálóegyüttesnél azonban nem jelentős, hiszen itt olyan modulok összekapcsolásáról van szó, melyeket külön- 
külön alakítottunk ki, így ha ezek a modulok önmagukban nem mutatnak túlilleszkedési hajlamot, akkor ez a 
veszély a súlyozott összegükre sem áll fenn. Másfelől hálóegyütteseknél az egyedi hálóknál jelentkező 
túlilleszkedés még előnyös is lehet, ahogy erre a következőkben utalni fogunk. 


A modulok számára korlátot inkább az jelent, hogy az egyes modulok mennyiben hoznak új eredményt, illetve 
milyen kapcsolat van az egyes modulok válaszai között. Ha két vagy több modul kimenetei lineárisan 
összefüggők, akkor a moduláris kiépítés redundáns, ráadásul az ilyen helyzet az integráló réteg súlyainak 
meghatározását 1s nehezíti. 
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2.1.2. Az integráló réteg súlyainak meghatározása 


A kimeneti réteg súlyait leggyakrabban a kimeneti átlagos négyzetes hiba minimalizálása útján határozzuk meg. 
Ekkor — mivel a modulokat integráló réteg szempontjából az egyes modulok kimenetei lesznek a bemenetek — a 
súlyozó hálózat nem más, mint egy adaline, melynek optimális súlyait a Wiener-Hopf egyenlet alapján 
határozhatjuk meg. E szerint: 


. n-l 
TKP gif) 


ahol 


Hl T 
Ry-Ejyyőj és P7 Fid; 9.12) 


T 
a modulok kimeneteiből képzett vektornak (" Ni 9 92 ÉM ) autokorrelációs mátrixa, illetve a modulok 


§ § Fr y yr si r 8 K r Ek Fr ei Fr r r 
kimeneteinek és a kívánt kimenetnek a keresztkorrelációs vektora. A megoldáshozaz  !" mátrix becslésére és 
a mátrix inverzének a kiszámítására van szükség. 


A súlyok optimális értékének meghatározása után a következőkben arra keressük a választ, hogy az optimális 
lineáris kombináció eredményeképp kapott hálóegyüttessel milyen eredmény érhető el. Több hálóból álló 
hálóegyüttes alkalmazásának ugyanis csak akkor van értelme, ha eredőben jobb eredményt érhetünk el, mint 
amit bármelyik egyedi háló elérne. 


2.2. Pontos és kulönböző szakértők együttese 


Hálóegyüttesnél az egyes hálók által szolgáltatott megoldásoknak valamilyen mértékben különbözniük kell 
egymástól, ugyanis azonos eredmények bármilyen súlyokkal történő súlyozott összegeként 15 csak ezt az azonos 
választ kaphatjuk. Eltérő válaszok azonban lehetőséget adnak arra, hogy az egyedi válaszok kombinálásaként az 
egyes válaszok egymást segítve, egymást kiegészítve, összességében a teljes feladatra nézve jobb megoldást 
szolgáltassanak, mint bármelyik egyedi megoldás. A hálóegyüttes alkalmazásának kulcseleme tehát az egyedi 
megoldások különbözősége. A következőkben ezt a kérdést próbáljuk egy kicsit részletesebben megvizsgálni. 


Egy hálóegyüttes vizsgálatánál induljunk ki abból, hogy van M hálónk, melyek mindegyike a teljes feladatot 
oldja meg. Jelöljük ezeknek a hálóknak a kimenetét adott x bemenet mellett y(x)-szel (j-1,2,...,M). A 
hálóegyüttes kimenetét az előző részben alkalmazott eljáráshoz hasonlóan az egyes hálók kimeneteinek 


súlyozott összegeként határozzuk meg. Jelöljük pix,u) -val az eredő választ, hiszen a súlyozott kimenet 


nemcsak az x bemenetnek hanem az súlyoknak 15 a függvénye: 


AM 
VÍXx 0-5 ajyj(x) 
1 (9.13) 


A következőkben — az előző részben alkalmazott megoldástól eltérően — kikötjük, hogy a súlyok legyenek 
pozitívak és összegük legyen egységnyi, vagyis teljesüljenek a 


MM 
2,aj 71 
j-I aj ob TETSZ zség 


és ES (9.14) 
feltételek. Ez a kikötés fontos lesz a továbbiakban. 


A hálóegyüttes minősítéséhez meg kell határozni az eredő válasz hibáját. Amennyiben most 15 négyzetes 
hibakritériumot alkalmazunk, adott mintapontban az eredő válasz hibáját 


e(x)— 51(x)-[doccr (za) [/ (9.15) 
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adja meg. Az eredő hiba mellett meghatározhatjuk az egyes egyedi megoldások négyzetes hibáit 15. A j-edik 
modul hibája ennek megfelelően: 


a 2 
ej(x)- sr (x)- [do], (x) ] (9.16) 


Minthogy az egyes megoldások különbözni fognak egymástól, célszerű, ha meghatározzuk az egyes 
megoldásoknak az eredő megoldástól való négyzetes eltérését, különbözőségét is. Jelöljük ezt a(x)-szel. (A 
jelölés az angol ambiguity elnevezésre utal, mely elnevezést Itt a különbözőség megjelölésére használunk.) 


Az egész hálóegyüttesre értelmezhetünk egy eredő különbözőséget, mint az egyes hálókra számított 
különbözőségek súlyozott összegét: 


MM MM 5 
TÍX,0)- 5 ajaj lm) 9 ai v60—-y(x,a) ] 
a úz (9.18) 


Látható, hogy az eredő különbözőség egy súlyozott variancia jellegű mennyiség. 


Ha az egyedi hibák súlyozott átlagát az alábbi összefüggés szerint definiáljuk 


AM 
E(x,)- 5 erjej lk) 
a , (9.19) 


a hálóegyüttes eredő válaszának négyzetes hibája a következő formában 1s felírható: 
ms Ty 2 OT 
e(x) - [docAu 7 ér, 0] "- 7(x,)- T(x) 920) 


Az eddigi összefüggések által meghatározott mennyiségek adott x bemenet mellett jellemezték az egyedi 
hálózatokat illetve a hálóegyüttest. Az összes lehetséges bementre integrálva a fenti összefüggéseket 
meghatározhatjuk a teljes feladatra 15 az eredő hibát, az egyedi hibák súlyozott átlagát és a különbözőségek 
súlyozott átlagát. 


fiz [exam pxodk 
X (9.21) 


HR [76 ÜP(XKÉK 
X (9.22) 


A 7 [6 apGodx 
X (9.23) 


Ennek alapján a hálóegyüttes általánosítási hibájára 15 érvényes az egy mintapontra meghatározott (9.20) 
összefüggés megfelelője. 


E7- E— A (9.24) 


A (9.24) összefüggés fontos jellemzője, hogy ebben szétválasztva szerepel az egyes hálók általánosítási hibáitól 
függő tag és a hálók válaszai közötti korrelációtól függő tag. Az első tag ugyanis az egyes hálók hibáitól függ, 
tehát ebben a tagban szerepet kapnak a hálóknak a kívánt választól való eltérései, míg a második tag anélkül is 
meghatározható, hogy ismernénk a kívánt válaszokat. A (9.24) összefüggés a torzítás-variancia dilemma (ld. 2. 
fejezet) egyfajta megfogalmazásának is tekinthető. Ugyanis, ha a hálóegyüttes válasza torzított, ez arra utal, 
hogy a különálló válaszok meglehetősen hasonlóak (és torzítottak 15) még azokra a bemenetekre 15, melyeket 
nem használtunk fel a tanításnál. Ilyenkor az eredő megoldás általánosítási hibája alapvetően meg fog egyezni 
az egyes megoldások általánosítási hibáinak súlyozott összegével. Ha ugyanakkor a variancia nagy, vagyis az 
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egyes megoldások jelentős mértékben eltérnek egymástól, az eredő megoldás általánosítási hibája kisebb lehet, 
mint az általánosítási hibák súlyozott összege. Altalánosságban 15 igaz, hogy 


1 JA 
Eszt] 
j-l (9.25) 


ahol a j-edik háló teljes hibája 


E; - [e j ÉXÖPÉXKÁX 
E (9.26) 


Az előbbiekből közvetlenül következik, hogy az eredő hiba úgy redukálható, ha az egyes hálók válaszai minél 
inkább különböznek, vagyis a (9.24) egyenletben a második tag egyre nagyobb, feltéve, ha közben biztosítani 
tudjuk, hogy az első tag ne növekedjen. Az eredő válasz négyzetes hibájának felírásából látható, hogy a 
négyzetes kifejezés miatt az semmiképp nem fordulhat elő, hogy (9.24) negatív eredményt adjon, bármekkora 15 
a különbözőség az egyes különálló válaszok között. 


A (9.24) összefüggés az ún. pontos és különböző (accurate and diverse) elv megfogalmazásának az alapja 
[Kro95], [50196]. Ennek megfelelően egy hálóegyüttes kialakításánál arra kell törekedni, hogy az egyes 
megoldások külön-külön minél pontosabbak és egymástól minél inkább eltérőek legyenek. 


A különböző, de pontos eredmények elérésének számos módja van. Általában különböző hálótípusokat 
alkalmazhatunk, vagy ha az összes háló azonos típusú, akkor a hálók méretében vagy a tanítókészlet 
összeállításában, esetleg a tanítás módjában lehet különbség. Különböző megoldást kaphatunk akkor is, ha 
eltérő kezdeti értékeket alkalmazunk. 


A hálóegyütteseknél a túlilleszkedés — amit az egyedi hálók esetében hátrányként említettünk — még előnyös 15 
lehet. Ez azt jelenti, hogy a regularizáció szerepe, mely a túltanulás veszélyét hivatott mérsékelni itt kevésbé 
fontos. 


Bár az eddigiekben mindig hálóegyüttesről beszéltünk, egy moduláris rendszer létrehozásánál az egyes 
megoldások akár eltérő megközelítés alkalmazásával 15 születhetnek. Például neuronhálós megoldások mellett 
fuzzy, szabályalapú, vagy más alapokon nyugvó megoldások együttesét 15 kialakíthatjuk. Ilyenkor hálóegyüttes 
helyett inkább szakértőegyüttesről beszélhetünk. 


2.3. MOE (Mixture Of Experts) architektúra 


A MOE (Mixture Of Experts) [Jac91 ], [Jor94] architektúra egy olyan speciális hálóegyüttes (szakértőegyüttes), 
ahol az előbbiekben bemutatott hálóegyütteshez hasonlóan szintén az egyes hálók válaszainak súlyozott 
összegeként kapjuk az eredő választ, azonban itt a súlyokat nem rögzítjük, hanem egy ún. kapuzóhálózat 
kimenetén nyerjük. Ellentétben ugyanis az eddigiekben vizsgált hálóegyüttesektől, amelyekben a mintahalmazra 
adott válaszok alapján egy általánosan minden bemenet esetén használt (az adott feladatra konstans) 
súlykészletet határozunk meg, itt a súlyok közvetlenül függnek a bemenettől 15. A kapuzóhálózat valójában 
maga 15 egy nemlineáris több-bemenetű—többkimenetű tanítható rendszer, mely bemenetként szintén a háló 
bemeneteit kapja, kimenetként pedig a súlyozó együtthatók értékeit, a kapuzóértékeket szolgáltatja. 


A MOE specialitását részben épp ez a kapuzóhálózat adja, hiszen ennek kialakítása biztosítja, hogy az 
előzőekben tárgyalt hálóegyüttestől eltérően itt a modulok kimeneteit nem fix súlyozással fogjuk össze, hanem 
bemenetfüggő kapuzóértékekkel. A bemenetfüggő súlyozás indítéka nyilvánvaló: feltételezhető, hogy az egyes 
szakértők a bemeneti tér különböző tartományain különböző minőségben oldják meg a feladatot, így, ha az 
egyes szakértőknek az eredő kimenethez való hozzájárulását a teljes feladatra azonos módon rögzítenénk, 
biztosan nem kapnánk optimális megoldást. Célszerűbb, ha megengedjük, hogy az egyes szakértők szerepe 
bemenetfüggő legyen, vagyis az eredő válaszhoz való hozzájárulásuk a problématér egyes tartományaiban 
kisebb, más tartományaiban pedig nagyobb legyen. A bemenetfüggő súlyozás a részeredmények rugalmas 
aggregálását teszi lehetővé, hiszen ebbe a keretbe belefér az 15, ha a választ a szakértők válaszának egyszerű 
átlagaként kapjuk, és az 15, ha egyes tartományokban az eredő választ csak egyetlen háló határozza meg. 


A kapuzóértékek maguk 15 függvényei a bemenetnek, sőt a kapcsolat a bemenet és a kapuzóértékek között 
nemlineáris, ezért a MOE architektúra akkor 15 nemlineáris leképezést valósít meg, ha az egyes szakértők 
önmagukban lineárisak. A MOE architektúránál általában meg 15 engedjük, hogy az egyes szakértők egyszerű 
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felépítésűek, pl. lineáris hálózatok legyenek. A továbbiakban azonban a bemenetek és a kimenetek között az 
általánosabb 


Y;— f(x, 8) i—1,2,. ...M, (9.27) 


kapcsolatot tételezünk fel, ami valamilyen statikus, lineáris vagy nemlineáris leképezést jelent, de dinamikus 


hálókból 15 képezhetünk szakértőegyüttest (Id. pl. [/ee97]). A (9.27) összefüggésben Si az i-edik szakértő 
paramétereit összefogó mátrixot jelölt. 


A MOE hálózatnál minden szakértő a teljes feladatot oldja meg, így az eredmény az egyes modulok közötti 
versengés és együttműködés eredményeként születik meg. 


9.7. ábra - A MOE (Mixture of Experts) architektúra 


kapuzó- 


halózat 


M. szakértő 





kj 
bemenet 


A hálózat felépítését a 9.7 ábra mutatja. Az x bemenetet mindegyik szakértő (egyedi háló) és a kapuzó hálózat 15 
megkapja. Az i-edik háló kimenetét f: jelöli, míg y lesz a teljes hálóegyüttes kimenete. A súlyozott összeg 
képzéséhez a g; súlyokat a kapuzóhálózat állítja elő. 


A teljes szakértőegyüttes kimenete ennek megfelelően: 


AM 
Y- 2 EY 
i-] . (9.28) 
A többdimenziós kimenet (9.28) összefüggése azt jelzi, hogy a kimenet egyes komponenseinek azonos a 


súlyozása, tehát a kapuzóhálózatot nem komponensenként, hanem a teljes kimeneti vektorra együtt 
alkalmazzuk. A MOE architektúránál 15 kikötjük, hogy a g; kapuzóértékekre teljesüljenek az alábbi feltételek: 


1 1: : "a 


M 
2. gj-l és OsSgel i-1,2 
iAl 
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Ezeknek a feltételeknek a háló működésének valószínűségi értlemezésénél lesz szerepük. 


A (9.29) feltételeknek eleget tevő kapuzóértékeket sokféleképpen elő lehet állítani. A MOE hálózatnál 
leggyakrabban az ún. , szoftmax" függvényt alkalmazzuk: 





ta. 
II 
— 


, (9.30) 


T 
ahol a ő közbenső változót az x bemenővektor és egy ": paramétervektor skalár szorzataként kapjuk: 517 Vix . 
A szoftmax függvény hatása valójában az lesz, hogy a MOE a bemeneti tartományt , lágyan" particionálja, olyan 
tartományokat határoz meg, melyekhez eltérő kapuzóértékek tartoznak, de amely tartományok határai általában 
elmosódottak. (A g; értékek az i-edik szakértő esetén tipikusan egy tartományon dominánsak, közel 1 értékűek, 
de nem változnak meredeken sem 0c1, sem 1560 irányban a tartomány határain.) A MOE architektúra ezért 
úgy 15 felfogható, mintha a feladatot a bemeneti tér particionálása alapján dekomponáltuk volna, ahol azonban a 
particionálás nem éles határokkal történik. 


A lágy particionálás könnyen interpretálható egy olyan architektúra esetén, ahol csak két szakértőnk van. Az 
ezekhez tartozó két kapuzóérték g:; és g2. Írjuk fel gy kifejezését (nyilvánvalóan g2— 1— g): 


a" l 





I 1 ren-viy s (9.31) 


vektor iránya szabja meg. Mindazon Xx-ekre, melyek (v:-v.)-re merőlegesek a két kapuzóérték megegyezik: g: — 
227 1/2, vagyis ezekre a bemenetekre, melyeknél a logisztikus függvény gerince található, a MOE válasza a két 
szakértő válaszának átlaga. A gerinctől távolodva az egyik irányban az első szakértő, a másik irányban a 
második szakértő szerepe kezd nőni, mindig a másik szakértő rovására. A gerinc meredeksége v2-v; nagyságától 
függ. Ha v.-v: nagy, a gerinc meredek, a két szakértő szerepe élesen elhatárolódik egymástól, míg kis értéknél 
az elválasztás lágy, a szakértők , kompetencia-területe1" erősen átlapolódnak. 


A MOE architektúra többszintű, hierarchikus hálóegyüttessé is kiterjeszthető, amikor a szakértőkből több 
csoportot alkotunk és ezeket a csoportokat külön-külön egy-egy MOE architektúrába fogjuk össze, majd a MOE 
kimenetekből egy újabb kapuzóhálózattal állítjuk elő a hierarchikus rendszer kimenetét. A hierarchikus MOE 
(HMOE) tehát nem a szakértőkből képez hierarchikus rendszert, hanem a kapuzóhálózatokból. A HMOE egy fa 
struktúrájú moduláris háló, melynek csak a leveleinél vannak szakértő modulok. 


2.3.1. A MOE tanítása 


A MOE architektúrának két, tanítással meghatározandó paraméter-készlete van. A ai paramétermátrixok a 


szakértők szabad paramétereiből állnak, míg a " vektorok a szoftmax függvényen keresztül határozzák meg a 


z-[u -[sajkó 


kapuzóhálózat leképezését. A tanítást most 15 egy (1! tanítópontkészlet alapján tudjuk 


elvégezni. 


A háló tanítása többféle megközelítésben 15 lehetséges. Amennyiben az egyes szakértők neuronhálók, mind a 
Si szakértő-paraméterek, mind a ": kapuzóhálózat-paraméterek a speciális MOE architektúrára alkalmazott 


hibavisszaterjesztéses algoritmussal taníthatók, hiszen a kimenet mind a s mind a " paraméterek folytonos 
függvénye. Ha a tanításnak ezt a megközelítését alkalmazzuk, akkor a MOE valójában nem több, mint egy 
speciális felépítésű komplex hálóarchitektúra. Ebben a megközelítésben a kapuzóértékekre megfogalmazott 
(9.29) feltételeknek nincs 15 különösebb jelentőségük, a feltételektől akár el 15 tekinthetünk. Ennél érdekesebb 
azonban, ha az architektúrához valószínűségi értelmezést rendelünk. A valószínűségi értelmezés a háló 
mellett a háló tanítása maximum likelihood becslési problémaként fogalmazható meg. A következőkben ezt az 
interpretációt és az ennek megfelelő tanítási eljárást foglaljuk össze. 
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2.3.2. Tanítás valószínűségi értelmezés alapján 


A valószínűségi értelmezésben mind a kapuzóhálózatok, mind a szakértők szerepe megváltozik. A 
kapuzóhálózat úgy 1s felfogható, mint egy olyan osztályozó, ami az x bemenővektort egy multinomiális 


valószínűségi változóra képezi le. A kapuzóértékekre megfogalmazott (9.29) feltételek biztosítják, hogy a §: 
értékek valószínűségekként is értelmezhetők legyenek. g; értelmezhető, mint az a valószínűség, hogy a kimenet 
az i-edik szakértőtől származik: 


se FÜülEV) (9.32) 


A kapuzóhálózat szerepe ekkor azt eldönteni, hogy melyik szakértő kimenete kerüljön ki a teljes moduláris 
rendszer kimenetére. A HMOE esetében több döntési szintet különböztethetünk meg, tehát egy hierarchikus 
döntési szekvencia eredménye az, hogy a kimenet melyik szakértőtől származik. Amennyiben ez a döntés vagy 
döntés-sorozat megszületett, feltételezhetjük, hogy a d kimenetet egy statisztikai modell generálta. Ez azt jelenti, 
hogy d valószínűségi változónak tekinthető, melyet valamilyen P valószínűség-sűrűségfüggvénnyel 
jellemezhetünk. Ennek megfelelően az egyes szakértőkhöz is valószínűségi értelmezés rendelhető és egy 
szakértő kimenete úgy interpretálható, mint a d valószínűségi változó feltételes várható értéke. 


2 tt 2 ARGR ASGNRÉ ZRNÉNÉT 4 


válaszát kell tekintenünk. Egy szakértő a valószínűségi modell alapján az 


Y;- E(d]x, B) (9.33) 


feltételes várhatóértéknek megfelelően állít elő egy kimenetet, ahol a várhatóérték-képzést egy pld x, 0; ) 


feltételes sűrűségfüggvény szerint képezzük. A következő lépésben egy szakértőkimenet a kapuzóértéknek 
megfelelő valószínűséggel kerül a teljes háló kimenetére (vagy HMOER esetében a következő hierarchiaszintre). 


Ebből a valószínűségi modellből kiindulva annak valószínűsége, hogy adott "? bemenetre d; választ kapunk a 
teljes valószínűségek tétele alapján az alábbi formában írható fel: 


Pld; 107 1- Egs vi Jöld ix; 
i 


— XPlils,vi Pld; ie; ) 
j (9.34) 


A (9.34) összefüggésben a paraméterek melletti " azt jelzi, hogy itt a paraméterek , igazi", de számunkra 


:k 


igei r r § íj 0. ,r fr (Hi . aj § 0. F r alj yr fi 
ismeretlen értékei szerepelnek. A $ az összes szakértő "77 paramétereit összefogó eredő paramétermátrix. 


Amennyiben az igazi értékek helyett valamilyen 9; és Yi paramétereink vannak, az /-edik tanítóponthoz tartozó 
bemenet és kimenet közötti valószínűségi kapcsolatot a 


Pf; Ixj 8] - 2 Plilxnv,]PÍd; ix. 8) 
i (9.35) 


feltételes sűrűségfüggvény adja meg. A teljes tanítókészletre 15 felírhatjuk a valószínűségi kapcsolatot: 


h AI Éj 


P(alx,8)-TT Pld: lx:,8)-TT S P(x v; )P(dp xy, 8; ) 
2] 


17] 17-]Li I (9.36) 


A (9.36) összefüggés annak valószínűségét adja meg, hogy az adott xi; bemenet mellett a megfelelő d, kívánt 
választ kapjuk (/—1,2,...,L), feltéve, ha a szakértőink paramétermátrixai a 8; mátrixok, a kapuzóhálózatunk 
paramétervektorai pedig a "S: vektorok (i—1,2,. ...M). 


A (9.36) összefüggés képezi a paraméterek meghatározásának, a MOB tanításának az alapját. Keressük ugyanis 


azokat a 9: mátrixokat és "i vektorokat, melyek mellett a (9.36) valószínűség-sűürűségfüggvény épp az adott 
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tanítóponthalmaz esetén veszi fel a maximumát. A feladatot tehát visszavezettük egy maximum likelihood 
becslési problémára, ahol a likelihood függvényt épp (9.36) adja meg. A tanító összefüggések 
meghatározásának további lépéseiben a likelihood függvény helyett célszerű annak logaritmusával, a log- 
likelihood függvénnyel dolgozni. 


h MM 
elx 8j-log P(d]x 81-95 log mo Plilxv;)P(d; 5.0)! 
IGl is] (9.37) 


A maximum likelihood becslés eredményét a  (log-)hikelihood függvény maximumát biztosító 
paramétervektorok szolgáltatják. A szélsőérték-keresést itt 15 gradiens módszerrel végezve meg kell határoznunk 
a 


öL( x 8] öc( ze) 


Ü V; 


i és a (9.38) 


likelihood egyenletek megoldásait. (Itt a 9; mátrixokat formálisan vektorrá alakítva használjuk.) A gradiens- 


számításnál alkalmazva a láncszabályt a 9; szerinti gradienst fi -n keresztül, a " szerinti gradienst pedig ő-n 
keresztül határozhatjuk meg: 


öL(x 8) öLíx 0) gy, — ö£(x ej ö£r(xejas 
98; Gy: OB; ez ÖV; de AVI 9.39) 


gradiens eljárás eredményeképp a következő tanító összefüggéseket nyerjük: 


b 





GY; 
0.(xr1J- e (xjazyhr[dp-Y) se 
!a ! (9.40) 
és 
L 
v.[£41]- V; (ejaeny [d] ag ]xi 
1-1] (9.41) 


ahol w jelöli a tanulási tényezőt, f:! jelöli az i-edik szakértő ?: -re adott válaszát, g;raz i-edik kapuzóértéket az I- 
edik tanítómintánál, míg h;1-t az alábbi összefüggés definiálja: 


P(i XI, V; JP(aj E, 8) 


EGT SSE e RG REESE tását elt Et ZAN SRL ás SZAR 
új vPljiznvjjol[di Er 8; ) 
d 


. (9.42) 


A szakértőparaméter tanítására vonatkozó (9.40) összefüggés csak akkor alakítható tovább, ha ismerjük a 
szakértő felépítését. Lineáris szakértőt feltételezve, ahol a szakértő kimenetét 


HA ez E; Aj (9.43) 


adja meg, a súlymódosító összefüggésre a következőt kapjuk: 


hő 
T 
a (kr11- e (kan j (d —-Yi] Ixj 
71 (9.44) 
A (9.44) összefüggést szemügyre véve látható, hogy a szakértő paramétereinek módosítása a szakértő hibájától 


függ, hiszen az i-edik szakértő kimeneti hibáját az /-edik tanítópontban épp es ci ) adja meg. Hasonló 
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megállapítás tehető a kapuzóhálózat paraméterének tanító összefüggésére 15, ugyanis a (9.41) összefüggés 
szerint a súlymódosítás h;i és g;: eltérésétől függ, ahol ez az eltérés 15 hibaként értelmezhető. 


A MOE mindkét paraméterkészletének súlymódosító összefüggései függnek a (9.42) által definiált h;i 


értékektől. Vegyük észre, hogy amennyiben a 7 CG Ya valószínűségeket a priori valószínűségeknek 
tekintjük, a h:i értékek az a posteriori valószínűségek. Ez (9.42)-ből a Bayes szabály alkalmazásával közvetlenül 
adódik. A g;: kunduló kapuzóérték ugyanis annak a valószínűségét adja meg, hogy adott xi; bemenet mellett az 
eredő kimenetet az i-edik szakértő válasza határozza meg. g;: értékét úgy határozzuk meg (vesszük fel), hogy az 


X-re adandó kívánt választ, d? tt nem ismerjük. Ezzel szemben h;i azt az állapotot tükrözi, amikor már d) tis 
felhasználtuk, tehát h;; az /-edik tanító mintapár ismerete utáni állapotra vonatkozik. Ennek megfelelően 


tsz PÜIZxL ÁLY 945) 


Az (9.41) és az (9.44) összefüggések kötegelt (batch) tanításra vonatkoznak, vagyis amikor az összes tanítópont 
felhasználását követően történik a súlymódosítás. Ugyanakkor a MOE tanításánál is alkalmazhatunk 
mintánkénti súlymódosítást; ekkor a fenti összefüggésekben az / mintapont-index szerinti összegzés elmarad. 


A MOE valószínűségi értelmezése lehetővé teszi, hogy a paraméterek meghatározást maximum likelihood 
paraméterbecslési eljárásra vezessük vissza. A maximum likelihood becslés az előbbiekben bemutatott gradiens 
alapú eljárásnál hatékonyabban 15 meghatározható. A MOE architektúrára származtatták az EM (expectation- 
maximizationy alapú eljárást, mely a számítások egyszerűsítését eredményezi. Ennek részleteivel azonban itt 
nem foglalkozunk, csak a megfelelő irodalomra ([Jor94]) utalunk. 


2.3.3. A MOE konstrukciója 


A MOE, illetve a HMOE architektúrák konstrukciójánál 15 meg kell határozni a moduláris rendszer struktúráját. 
Ez Itt a szakértők számának, illetve hierarchikus MOE esetében a hierarchia szintek számának a meghatározását 
is jelenti. A MOEF/HMOE struktúrájának meghatározása a modellválasztás problémakörbe tartozik, így a 
modellválasztás eddig említett megközelítéseit alkalmazhatjuk. Leginkább az adatokból kiindulva, az 
eredmények folyamatos tesztelése útján, a kereszt kiértékelés alkalmazásával határozhatjuk meg a megfelelő 
MOE architektúrát. 


ett Zöledit a 


moduláris rendszert eredményez. Erre ad lehetőséget például a CART (classification and regression tree) 
[Bre84] alapú eljárás, ahol a feladatot a kívánt válaszok alapján dekomponáljuk egyre kisebb részfeladatokra 
úgy, hogy az egyes lépésekben a problémateret mindig két részre hasítjuk. A dekomponálás alapja, hogy a 
problématér különválasztott tartományaihoz tartozó mintapontoknál a kívánt válaszok szórása minél kisebb 
legyen. A hierarchikus dekompozíció egy HMOE architektúrát eredményez, annak ellenére, hogy az egyes 
szakértők tulajdonképpen továbbra 1s a teljes feladatot oldják meg. 


A MOE architektúráját nagymértékben befolyásolja, hogy az egyes szakértők milyen felépítésűek. Tipikus 
választás az egyszerű lineáris szakértő. Ebben az esetben az eredő feladat valójában szakaszonként lineáris 
működést valósít meg, ahol azonban az átmenet az egyes szakaszok között a szoftmax kapuzó függvények 
következtében folytonos és , legömbölyített". 


Bonyolult, komplex leképezésre képes szakértő modulok alkalmazása már csak azért sem célszerű, mert ekkor 
nagy a veszélye annak, hogy akár egyetlen szakértő 15 meg tudja oldani a feladatot. Ha ilyen eset áll elő, akkor 
ennek az egyetlen szakértőnek megfelelő kapuzóérték a teljes problématéren közel 1! értéket vesz fel, ami ennek 
a szakértőnek a hasznosítását és a többi indokolatlan alkalmazását jelenti. Az egyszerűbb képességű szakértők 
, garantálják", hogy külön-külön egyikük sem képes a feladat megoldására, együttműködésükre feltétlenül 
szükség van. A MOB előnyei akkor érvényesülnek, ha a feladat valóban megoszlik az egyes szakértők között. 
Az előnyök között elsősorban a gyorsabb tanulást kell megemlíteni, de az egyszerű szakértők miatt általában az 
egész hálózat komplexitása 15 jóval kisebb lehet, mint egy hasonló képességű egyedi hálózaté. 


3. Moduláris háló kialakítása a tanító mintakészlet 
módosításával 


:? Az EM-algoritmus rövid összefoglalását a 13. fejezetben adjuk meg. 
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Az eddigi moduláris háló kialakításoknál akár dekomponáltuk a feladatot, akár a teljes feladatot oldottuk meg 
különböző hálókkal, minden esetben az eredeti tanítókészlettel vagy annak a dekompozícióhoz tartozó adott 
részhalmazával dolgoztunk. A következőkben olyan moduláris háló konstrukciókkal foglalkozunk, ahol az 
egyes modulokat tudatosan eltérő eloszlású adatkészletekkel tanítjuk, miközben továbbra 15 minden 
tanítópontunk az eredeti megoldandó problémából származik, bármelyik adatkészletről van 15 szó. 


A tanító mintakészlet módosításával létrehozott moduláris hálóknál több hálót tanítunk és minden hálóhoz más- 
más eloszlású tanítókészletet használunk. A tanítókészlet módosításának legkézenfekvőbb módja az ún. 
bagging? eljárás. A bagging eljárás olyan hálókat hoz létre, melyeket az eredeti tanítókészletből véletlenszerű 
válogatással létrehozott mintakészletekkel tanítunk. Minden egyes újabb hálóhoz létre kell hoznunk egy új 
tanítókészletet, melynek elemszáma megegyezik az eredeti mintakészlet elemszámával és amelyet az eredeti 
mintakészletből visszatevéses mintavételezéssel hozunk létre. Az így létrehozott mintakészleteket az eredeti 
készlet bootstrap másolatainak, az egész technikát pedig bootstrap aggregálásnak nevezzük. A bootstrap 
másolatokra jellemző, hogy az eredeti mintakészletből egyes minták többször 1s előfordulhatnak benne, míg más 
minták teljes mértékben kimaradnak. A bootstrap másolatok átlagosan az eredeti mintakészlet 63,290-át 
tartalmazzák [Bre96]. A bagging így az egyes hálók tanításához az eredetitől eltérő eloszlású mintakészleteket 
használ fel. 


Az eredeti mintakészletből eltérő eloszlású mintakészletek előállításának további fontos lehetőségét jelentik a 
boosting eljárások [Scha02]. A boosting valójában fokozást jelent, ami itt arra utal, hogy a boosting eljárás 
eredményeképpen kapott moduláris háló jobb teljesítményre képes, mint ha az eredeti tanítókészlettel egyetlen 
hálót hoztunk volna létre. A boosting eljárások tehát a teljesítőképesség javítása érdekében módosítják a 
tanítókészletek eloszlását. A következőkben a legfontosabb boosting eljárásokat foglaljuk össze, és kitérünk 
annak rövid bemutatására 15, hogy milyen mechanizmus áll a boosting eljárások teljesítőképesség-javító hatása 
mögött. 


3.1. Boosting 


Az előzőek alapján látható, hogy a boosting eljárások lényege, hogy a rendelkezésre álló tanítókészlet mintáinak 
a felhasználásával eltérő eloszlású mintakészleteket hozunk létre azzal a céllal, hogy az így kialakított 
mintakészletekkel különálló hálókat konstruáljunk. Az eredő megoldás itt 15 az egyes hálók eredményeinek 
valamilyen egyesítése útján nyerhető. A boosting eljárások tehát szintén moduláris hálóarchitektúrát 
eredményeznek, azonban az eddigi moduláris háló-konstrukcióktól lényegesen eltérő módon. A boosting 
eljárások az egyes modulok tanításához szükséges különböző eloszlású mintakészleteket szűréssel vagy az 
egyes minták tanítókészleten belüli szerepének módosításával állítják össze. A boosting eljárások osztályozós 
feladatok megoldására alkalmas moduláris architektúrákat eredményeznek. 


3.1.1. Boosting szűréssel 


A szűréssel történő boosting eljárás [Scha90] eredményeképpen egy három hálóból álló moduláris architektúrát 
kapunk, ahol a három háló tanítása három eltérő, de azonos (L) számú mintából álló tanítókészlettel történik. Az 
eljárás feltételezi, hogy nagyszámú tanítópont áll a rendelkezésünkre, mely mintakészletből az alábbi eljárás 
során hozzuk létre a három tanítókészletet: 


1. A rendelkezésre álló tanítómintákból válasszunk ki véletlenszerűen L mintapontot, és ezzel a tanítókészlettel 
tanítsuk meg az első hálót. 


2. A megtanított első háló felhasználásával szűrjünk ki a rendelkezésre álló és az első készletben fel nem 
használt mintakészletből újabb L pontot a következő eljárással: 


e Generáljunk azonos valószínűséggel 0-t vagy 1-et, vagyis dobjunk fel egy érmét. 


e Ha az eredmény fej (0), vegyünk elő egymás után újabb mintákat, és dolgozzuk fel ezeket a mintákat az első 
hálóval. Ha egy mintát az első háló helyesen osztályoz, akkor ezt a mintát dobjuk el, sőt dobjuk el a sorban 
elővett mintákat mindaddig, amíg egy hibásan osztályozott mintához nem érünk. Ezt a tévesen osztályozott 
mintát adjuk a második háló tanítókészletéhez. 


; A bagging elnevezés a bootstrap aggregation elnevezésből született, ahol a bootstrap önerőből történő képességjavítást jelent. A bagging 
ezért olyan integrált megoldás, ahol különböző, külső segítség nélkül javított megoldásokból, azok egyesítése útján kapjuk az eredő 
megoldást. 
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e Ha az eredmény írás (1), az előzővel ellentétesen kell cselekednünk. Vegyünk elő ismét egymás után újabb 
mintákat, és nézzük meg ezekre az első háló válaszát. Ha a válasz hibás, a mintát dobjuk el, sőt dobjuk el a 
további egymást követő mintákat 15 mindaddig, amíg egy helyesen osztályozott mintát nem kapunk. Most ezt 
a helyesen osztályozott mintát adjuk a második tanítókészlethez. 


e Folytassuk az eljárást, amíg L számú tanítópontot össze nem gyűjtünk. Az így létrehozott készlet képezi a 
második háló tanítóhalmazát. 


Ez a mintapontválogató eljárás biztosítja, hogy a második mintakészletet az első háló 50906-os hibával 
osztályozza, tehát a második tanítóhalmaz eloszlása biztosan más lesz, mint az első háló tanításához használt 
mintakészleté. 


A második háló megtanítása után alakítsunk ki egy harmadik tanítókészletet. Ehhez új pontokat vegyünk elő a 
kunduló mintakészletből és nézzük meg ezekre a pontokra az első két háló válaszát. 


e Ha a két háló válasza megegyezik, a mintapontot dobjuk el. Ha a válaszok különböznek, a mintát tartsuk meg 
és adjuk a harmadik tanítókészlethez. 


e Folytassuk a válogató eljárást, amíg L pontot össze nem gyűjtöttünk. 
Tanítsuk meg a harmadik hálót az így kapott készlettel. 


3. A három hálóból képezzünk egy moduláris hálóegyüttest, ahol az eredő választ egyszerű szavazással 
nyerhetjük. Az eredmények aggregálásának más módját 1s javasolták [Dru93]. E szerint a javaslat szerint 
adjuk össze az egyes hálók kimeneteit (vegyük figyelembe, hogy a hálók kimenetei nem feltétlenül binárisak, 
hanem a [0.1] zárt intervallumban tetszőleges értéket felvehetnek) és az összeg alapján hozzuk meg az eredő 
osztálybasorolást. Ez utóbbi változat előnyét gyakorlati vizsgálatok támasztják alá. 


A szűréssel dolgozó boosting eljárás hátránya, hogy igen sok tanítópontot igényel. Jelölje rendre L., L. és L; az 
első, a második és a harmadik háló tanítókészletének kiválogatásához felhasznált tanítópontok számát. Az első 
hálónál ki kell választanunk véletlenszerűen L tanítópontot, tehát L.-L. A második és a harmadik 
tanítókészlethez viszont L-nél sokkal több pontra van szükségünk, hiszen a szűrési szabály szerint bizonyos 
pontokat el kell dobnunk. Ebből adódóan általában mind L., mind L; jóval nagyobb lesz, mint L, vagyis a három 
L-elemű tanítókészlethez L.w-elemű mintakészletből kell kundulnunk, ahol általában Lm 535332. Ha a kiinduló 
mintapontok (ismert válaszú pontok) száma korlátozott, akkor a megfelelő mintaszámú három tanítókészlet 
kiválogatása nehézségekbe ütközhet. 


A nagy kiunnduló mintapontszámra elsősorban azért van szükség, mert a tanítókészletek nem tartalmaznak közös 
mintapontokat. A következőkben bemutatandó AdaBoost eljárás ezt a hátrányt kiküszöböli, sokkal 
hatékonyabban használja föl a knnduló mintakészletet, így összességében jóval kevesebb mintával is tud 
dolgozni. 


3.1.2. AdaBoost 


Az AdaBoost eljárás [Scha99] a mintapontok újtramintavételezésével biztosítja a tanítópontkészlet eloszlásának 
módosítását. A legfontosabb különbség az előzőekben bemutatott mintaszűréssel dolgozó boosting eljáráshoz 
képest, hogy megengedi a mintapontok újra felhasználását. Valójában az egyes tanítópontoknak az egyes hálók 
tanításánál betöltött szerepét változtatjuk. 


k. 1 

MerANE , , . i ; ; b. j Z 712] -[(xp.d he 
Az eljárás bemutatásához induljunk ki abból, hogy rendelkezésünkre áll egy (-1] 
tanítókészlet, ahol feltesszük, hogy a d, kívánt válaszok a (—1, t 13 értékkészletből vehetnek fel értékeket, 
vagyis kétosztályos osztályozási problémával állunk szemben. A mintakészletben a tanítópontok valamilyen 
eloszlásnak megfelelően fordulnak elő. Az AdaBoost eljárás a tanítópontok eloszlását — az eredeti 
tanítópontoknak az adott mintahalmazban való előforulási gyakoriságát - változtatja adaptív módon. Innen ered 
az eljárás elnevezése is. Az eljárás iteratív módon működik: minden iterációban egy új tanuló rendszert 
(neuronhálót) hozunk létre egy módosított eloszlású tanítókészlettel. (Megjegyezzük, hogy az AdaBoost eljárás 
és az egyéb boosting eljárások általános mintaeloszlás-módosító eljárások, tehát nemcsak neuronhálóknál 
alkalmazhatók. Ennek ellenére most feltételezzük, hogy az eljárást moduláris háló kialakításához alkalmazzuk.) 
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Jelölje a £-edik iterációban az /-edik mintának a tanítókészleten belüli előfordulási gyakoriságát DK). 
Kiunduláskor ez minden tanítópontra azonos, vagyis D(D-1/L, minden /-1,2,...,L-re. (Tehát minden egyes 
minta egyszer fordul elő az L elemű halmazban.) Az egymást követő iterációkban az egyes mintapontok 
előfordulási gyakoriságát módosítjuk: a helytelenül osztályozott minták gyakoriságát növeljük, a helyesen 
osztályozottakét csökkentjük. Ez azt eredményezi, hogy arra kényszerítjük a következő iterációban az újabb 
osztályozót, hogy a nehéz esetekkel többet foglalkozzon. 


Az algoritmus lépései a (Il ,..., 7 iteráció során a következők: 
1. Tanítsunk meg egy hálót a D, eloszlású mintakészlettel. 


2. Minősítsük a megtanított hálót az alábbi hibadefiníció alapján: 
EE PI (xi , új dp] (9.46) 


ahol 9rX a t-edik iterációban alkalmazott háló válasza !: bemenetre. A hiba fenti kifejezése annak a 
valószínűségét adja meg, hogy a t-edik háló az /-edik mintát hibásan osztályozza. A hibavalószínűség a 
mintapontok előfordulási gyakoriságával 1s kifejezhető: 


a7- 2 HO) 
Ey.lx ed; (9.47) 


3. Válasszunk egy S együtthatót a következőképpen 


ety — mm 8 
Tt A (9.48) 





4. Frissítsük a mintapontok eloszlását (módosítsuk a mintapontok előfordulási gyakoriságát) az alábbiak szerint: 


DE) v e": hagy[xj]-d 
3 es hay, Íx) ] at dt 


51 (9.49) 





e] [/]- 


ahol S, egy normalizáló tényező, melyet úgy kell megválasztani, hogy D.: egy diszkét valószínűség- 


HD gihisi1 
sűrűségfüggvény legyen, jegy tt) i 


5. Amennyiben nem értük még el az iteráció leállási feltételét (kielégítő pontosságot, adott iterációszámot vagy 
más feltételt), akkor növeljük t-t eggyel és lépjünk az 1. lépésre. Ha az iteráció végére értünk (7 lépés után), 
akkor hozzuk létre az eredő osztályozót: 


6. Az eredő választ a következőképpen határozzuk meg: 


Tr 
ylx)- sign 3 agyi 9) 
t-] (9.50) 


Láthatóan az algoritmus során egymást követően több hálót konstruálunk, mindegyiket egy valamilyen 
mértékben módosított tanítókészlettel. Mind a tanítókészlet módosításához, mind a részeredmények 
aggregálásához felhasználunk egy 1 együtthatót, ami a t-edik háló fontosságának mértékeként is tekinthető. 


Vegyük észre, hogy 3: 5 0, ha e, 1/2, és a, egyre nagyobb lesz, ha e, csökken. Az e, £ 1/2 nem tekinthető 
megszorításnak, hiszen bármilyen osztályozó konstruálásánál nyilvánvaló követelmény, hogy az osztályozási 
hiba nem haladhatja meg az 5090-ot. 
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A mintapontok eloszlásának módosítását megadó (9.49) összefüggés szerint hibás osztályozás esetén növelni 
kell az adott mintapont szerepét a tanítókészletben és csökkenteni, ha az osztályozás helyes. Így a később 
létrehozott hálók egyre inkább a , nehéz" mintákra koncentrálnak. Az eredő választ az egyes hálók válaszainak 
súlyozott összegeként kapjuk, ahol a súlyozás szintén az a, együtthatókkal történik. 


A fentiek alapján az AdaBoost eljárással konstruált moduláris háló beleillik a hálóegyüttesek sorába. Itt is 
különálló hálók lineáris kombinációjával nyerjük az eredményt, és a teljesítőképesség javulásának az esélyét az 
adja, hogy az egyes hálók különböző minőségben oldják meg a feladatot. Az eltérő minőségű megoldások 
alapját a tudatosan konstruált eltérő eloszlású tanítókészletek adják. 


3.1.3. A boosting eljárások minősítése 


A boosting eljárások teljesítőképesség-növelő hatása általánosan is vizsgálható. Ez a megközelítés a 
valószínűleg közelítőleg helyes (VKH) (probably approximately correct, PAC) tanulási modellen alapul. A 
valószínűleg közelítőleg helyes tanulási modell [ Val84], [IRus05] a tanulás számítási elméletéhez kapcsolódik és 
bináris osztályozási feladatoknál a tanulás alapkérdésére keresi a választ: miért működik egyáltalán a mintákból 
történő tanulás? 


A boosting eljárásokkal kapcsolatban a kérdés úgy merül fel, hogy egy olyan tanuló algoritmus, amelynek a 
teljesítőképessége az 5090-os találati aránynál (a véletlen választásnál) épp hogy csak jobb, feljavítható-e 
tetszőlegesen pontos tanuló eljárássá. Az olyan tanulást, amelynek eredménye az 50906-os találati arányt épp 
hogy meghaladja gyenge tanulásnak (weak learning), míg a tetszőlegesen kis hibát eredményező eljárást erős 
tanulásnak (strong learning) nevezzük. Kérdés tehát, hogy a gyenge tanulás feljavítható-e erős tanulássá. A 
válasz általánosan 15 pozitív, amit úgy fogalmazhatunk meg, hogy az erős és a gyenge tanulás ekvivalens 
fogalmak [Scha90], [Fre95], [5cha99]. 


A szűréssel történő boosting eljárás hibacsökkentő hatását Schapire vizsgálta [Scha90]. E szerint, ha az eredeti 
hibaarány (a válogatás nélkül kapott mintakészlettel tanított első háló hibája) e, a hálóegyüttes eredő hibájára a 
következő felső korlát érvényes: 


2 a 
zlz)j-37"—28 (9.51) 
Látható, hogy g(e) jóval kisebb is lehet, mint e. Ezt mutatja a 9.8 ábra, ahol e függvényében a folytonos vonal 
jelöli a fenti felső korlátot. Az ábra alapján az is nyilvánvaló, hogy ha rekurzív módon alkalmazzuk a 
mintaszűrő eljárást, az eredő hiba tetszőlegesen kicsivé tehető. A rekurzív alkalmazás azonban általában inkább 
csak elvi lehetőség, hiszen ez az amúgy 15 nagy kiinduló mintakészlet további növelését igényl1. 


9.8. ábra - A szűréssel történő boosting eljárás teljesítőképesség-javító hatása 
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Az AdaBoost eljárás teljesítőképesség-növelő hatásának elemzését Yoav Freund és Robert Schapire adták meg 


[Fre97]. E szerint ha a t-edik iterációban a (9.47) összefüggés szerinti hiba g7-1/2- Vt, WS: y ahol y 
valamilyen kis pozitív konstans) akkor az eredő megoldás hibája a tanítópontokra legfeljebb: 


IT2.§s [1-1 -TI A -dyő £ exp oz 


(9.52) 


Vagyis ha a gyenge tanulás bármilyen kismértékben, de jobb, mint a véletlen választás, az AdaBoost eljárással 
kapott eredő hiba exponenciálisan gyorsan csökken. A (9.52) összefüggés ugyanakkor csak a tanítópontokban 
meghatározott hibára vonatkozik és nem az általánosítási hibára. 


4. A moduláris eljárások összefoglaló értékelése 


Ebben a fejezetben a moduláris hálóarchitektúrák kialakításának néhány fontosabb lehetőségét mutattuk be. A 
moduláris felépítés alapjában két fő célt szolgálhat: egyrészt biztosíthatja, hogy egy feladatot könnyebben, 
eredőben kisebb komplexitású hálóval, gyorsabb tanulási eljárással oldjunk meg, másrészt lehetővé teheti, hogy 
moduláris kialakítással jobb eredményt érjünk el. A fejezetben mindkét lehetőségre mutattunk néhány példát. 


A moduláris hálók témaköre az Itt összefoglalt területnél jóval bővebb és szerteágazóbb. A különböző további 
megoldások szintén az itt alkalmazott megközelítéseket használják: vagy egymással versengő vagy 
együttműködő, esetleg versengő és együttműködő modulok együtteséből épülnek fel. A különbség az itt 
bemutatott eljárásokhoz képest a feladat dekomponálásában, illetve a részeredmények integrálásánál található. 


A fejezetben a moduláris kialakítások három fő területével foglalkoztunk. Az első terület a 
feladatdekompozíció, amely komplex osztályozási feladatok megoldásánál ad segítséget. 


A második terület a kooperatív hálóegyüttesekkel foglalkozik. A hálóegyüttesek különösen sikeresen 
alkalmazhatók az alábbi körülmények között: 


e túl kevés mintapont áll a rendelkezésünkre, 
e nagy a lokális minimumba kerülés esélye, 


e a megoldandó feladat az adott eszköz modellező képességének határán, esetleg azon túl található. 
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A túl kevés mintapont azzal a következménnyel járhat, hogy a mintapontokhoz könnyen igazodó megoldás 
nyerhető, miközben az egyes különálló megoldások általánosítási képesség tekintetében eltérőek. Itt az átlagolás 
vagy súlyozott átlagolás jelentősen javíthatja a moduláris kialakítás eredő pontosságát. A pontos és különböző 
megoldások együttese lényegében ezt az esetet képviselt. 


A lokális minimumba ragadás hatásának mérséklését a moduláris kialakítás úgy biztosíthatja, hogy a több 
különálló modult eltérő feltételek mellett konstruáljuk (pl. eltérő kezdeti értékekkel indítjuk az egyes hálók 
tanítását). Így még ha mindegyik tanítás lokális minimumhoz vezetne is, az integrált megoldás bármelyik egyedi 
megoldásnál jobb eredményt biztosíthat. Jó példa erre az esetre a hálók optimális lineáris kombinációja. 


A korlátozott modellező képesség reprezentációs problémát takar. Ez azt jelenti, hogy külön-külön egyik modul 
sem képes egy adott feladat megoldására, mert a feladat az adott modulok reprezentációs, modellezési körén 
kívül helyezkedik el. Az egyes modulok által nyújtott megoldások megfelelő kombinálásával azonban az eredő 
modellezési tartomány kiterjeszthető. Tipikus példa erre a lineáris szakértőkből összeállított MOE architektúra. 


A harmadik fő terület a mintapontok eloszlásának változtatása útján segít hozzá a jobb eredmény eléréséhez. A 
boosting eljárások a gyenge és az erős tanulás kapcsolatának bemutatása miatt elvi fontosságúak, miközben a 
gyakorlat számára 15 könnyen alkalmazható megközelítést adnak. 


Feladatok 


9.1 Oldja meg a 6.5 ábrán bemutatott kettős spirál problémát feladatdekompozíciós megközelítéssel. A 
problémát dekomponálja több különböző módon: véletlenszerűen, az xi: bemeneti változó értéke szerint, illetve 
mind az xi;, mind az x. bemeneti változó szerint. Alakítson ki 3, 9 (3x3), illetve 36 (6x6) részfeladatot és az 
egyes részfeladatokat lineáris osztályozóval oldja meg. Elemezze a megoldásokat a háló komplexitása, az 
általánosítási hiba és a tanítási idő szempontjából. Hasonlítsa össze a megoldásokat egy egyetlen MLP-t 
alkalmazó megoldással. A kettős spirál mintakészletet az 5. fejezetben (5.1 példa) megadott MATLAB kód 
felhasználásával generálja. 


9.2 Határozza meg az optimális súlyokat egy súlyozott lineáris kombinációt alkalmazó moduláris 
hálóegyüttesnél, ha a modulokat összefogó lineáris súlyozott összegző (") tartalmaz eltolásértéket (bias), (") 
nem tartalmaz eltolásértéket. Vizsgálja meg a kétféle megoldást általánosan és egy konkrét feladat megoldása 
kapcsán 1s, ha az egyes modulok hagyományos MLP-k. 


V; 


9.3 Származtassa a MOE kapuzóhálózat : paramétervektorainak tanító összefüggését ((9.41) egyenlet). 


9.4 Származtassa a HMOE tanításának alapösszefüggéseit, ha a HMOER két kapuzóhálózat-szintet tartalmaz. 


9.5 Oldja meg a sin(x)/x függvényapproximációs feladatot lineáris hálókból felépített MOE architektúra 
segítségével. Vizsgálja meg a lineáris modulok száma és az approximációs hiba kapcsolatát. Elemezze a 
kapuzóértékek alakulását, illetve azt, hogy milyen módon dekomponálja a feladatot a moduláris megoldás. 


9.6 Oldja meg az N-dimenziós (N 2 3) sin(r)/r függvényapproximációs feladatot SVM alapú MOE 


[2 2 2 
architektúrával, ahol KSS k EE sső NT Ág egyes SVM modulokat eltérő c szélességparaméterű Gauss 
kernelfüggvényekkel konstruálja. 


9.7 Illusztrálja a szűréssel dolgozó boosting eljárás teljesítőképesség-növelő hatását a 9.1 feladatban 
megfogalmazott kettős spirál problémán. Elemezze az egyes tanítókészletek eloszlását. Az egyes modulok 
tanításához minimum 30 mintapontot használjon. Nézze meg, hogy hány mintapontra van szüksége ahhoz, hogy 
a három tanítókészletet létre tudja hozni. (Elegendő-e a 9.1 feladatban meghatározott mintakészlet a három 
tanítóhalmaz előállításához, ha mindháromban 30-30 mintapontot szeretnénk összegyűjteni?) 


9.8 Oldja meg az előző feladatot AdaBoost eljárás segítségével. Hasonlítsa össze az eredményt a megoldás 
pontossága és a felhasznált tanítópontok száma szempontjából. 


9.9 Oldja meg a Mackey-Glass kaotikus idősor-előrejelzési feladatot olyan moduláris CMAC háló 
architektúrával, mely egybementű CMAC hálókból épül fel. A mintapontokat a 8.2 példában definiált módon 
állítsa elő. 
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A tanulással foglalkozó 2. fejezetben láttuk, hogy a nemellenőrzött tanulás (vagy felügyelet nélküli, tanító 
nélküli tanulás) legfontosabb jellemzője, hogy nem áll rendelkezésünkre kívánt válasz, a tanítás során nincs 
tanító. A kívánt válasz hiánya miatt a nemellenőrzött tanítású hálózatok konstrukciója és alkalmazási területei 
jelentősen különböznek az ellenőrzött tanítású hálóknál látottaktól. Mivel nincs kívánt válaszunk, meghatározott 
be-kimeneti leképezés megvalósítása nem lehet cél. További lényeges különbség, hogy a nemellenőrzött 
tanítású hálók jelentős része lineáris háló, tehát az alkalmazott processzáló elemek egyszerű súlyozott 
összegzést végeznek. 


A nemellenőrzött tanítású hálók főbb alkalmazási területet: 

e a bemenetre kerülő minták közötti hasonlóság megállapítása, 
e a bemeneti mintatérben csoportok, klaszterek kialakítása, 

e adattömörítés, főókomponens analízis, 

e független komponensek meghatározása. 


A hasonlóság megállapítása, ill. csoportok kialakítása egymáshoz szorosan kapcsolódó képességek. Ezen 
képességek teszik lehetővé, hogy a nemellenőrzött tanítású hálók ís — legalább közvetve — alkalmazhatók 
osztályozási, felismerési feladatok megoldására. Szemben azonban az ellenőrzött tanítású hálókkal, ítt nem 
ismerjük előre a megkülönböztetendő osztályok számát, tehát nemcsak a bemeneti minták adott osztályba 
sorolása a feladat, hanem maguknak az osztályoknak a kialakítása i15. Valójában tehát nem is osztályozási, 
hanem klaszterezési feladatot oldunk meg. Ezzel kapcsolatban két alapvető feltételezést kell tennünk; az első, 
hogy egy klasztert tágabb értelemben úgy definiálunk, mint azon minták összességét, amelyek hasonló 
jellemzőkkel rendelkeznek, a másik, hogy a hálózat képes kell legyen a teljes bemeneti mintakészlet hasonló 
jellemzőinek azonosítására. A klaszterezésre alkalmas nemellenőrzött tanítású hálók tipikus példája a Kohonen 
háló. 


kevesebb paraméterrel írjuk le, vagyis az adattömörítés azt jelenti, hogy a többdimenziós adatok egy (esetenként 
sokkal) kisebb dimenziós térben 15 reprezentálhatók. Ennek során azt 15 megengedjük, hogy az új reprezentáció 
csak közelítőleg írja le az adatokat, tehát az ábrázolás során valamekkora hibát 15 megengedünk. Az új 
component analysis, PCA) hálózatok olyan — általában lineáris — transzformációt végeznek, amely lehetővé 
teszi, hogy közelítő ábrázolásnál a tömörített leírás hibája átlagos négyzetes értelemben minimális legyen. 


Adattömörítést azonban nemcsak a PCA hálózatok végeznek, hiszen a klaszterek kialakítása szintén felfogható 
adattömörítésnek. Ekkor ugyanis egy adott klaszterbe tartozó összes adat a klaszter azonosításával megadható. 
Minthogy egy klaszter általában több adatot tartalmaz, az ezek közötti megkülönböztetésre a klaszter-azonosító 
nem képes, ez a reprezentáció 1s információvesztéssel, hibával Jár. 


A független komponens analízis (independent component analysis, ICA) komplex jelek összetevőkre történő 
bontására szolgál. A független komponens analízis során olyan összetevőket keresünk, melyek egy adott feladat 
szempontjából önálló jelentéssel rendelkezhetnek, de amelyeket közvetlenül nem tudunk megfigyelni. 


A felügyelet nélküli tanulás a tanulás egyik leginkább elemi formája; olyan adatelemzés, amikor azt próbáljuk 
felderíteni, hogy az adataink egyáltalán hordoznak-e valamilyen információt. Ha igen, akkor azt valamilyen 
módon meg akarjuk , ragadni", az adatokból ki akarjuk nyerni. Ezért a nemellenőrzött tanulást egyfajta 
adatbányászatnak 1s tekinthetjük. 


A fejezet célja, hogy összefoglalja a felügyelet nélküli tanulási eljárások főbb jellemzőit, valamint azokat a 
hálóarchitektúrákat, melyek fontos gyakorlati feladatok megoldását teszik lehetővé. A nemellenőrzött tanuló 
eljárások többsége a Hebb szabályon alapul. A Hebb szabály alapú tanulás egyes hálózatoknál kiegészül a 
versengő tanulással, ezért elsőként e két tanulási szabállyal foglalkozunk. 
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1. Hebb tanulás 


A Hebb szabály biológiai eredetű eljárás [Heb49]. Legegyszerűbb formájában a következőképpen fogalmazható 
meg: két processzáló elem közötti kapcsolat erőssége (a processzáló elemek közötti súlytényező értéke) a 
processzáló elemek aktivitásának szorzatával arányosan változik. 


wlkrlj-wyik tek ]y (ke) , (10.1) 


ahol 5" az i-edik és a j-edik processzáló elem közötti súly, 93 ill. "9 a két processzáló elem kimenetének 
értéke, u pedig az eddigiekhez hasonlóan a tanulási tényező. Ha a súly egy bemenet és egy processzáló elem 


Aj 


között található, ahol a bemenet értéke "7, a processzáló elem kimenetének értéke pedig Vj , akkor a 


súlymódosítás értelemszerűen: 

Vij [441] váj (e) ix (Ejy; (e) (10.2) 

Az eredeti Hebb tanulási szabálynak különböző változatait dolgozták ki. Ezen változatok legfontosabb 
jellemzője, hogy a szabályba beépítettek egy normalizáló eljárást 15, ugyanis az eredeti Hebb szabály mellett a 
súlyok minden határon túl növekedhetnek. A normalizálásnak több módjával találkozhatunk, melyeket az egyes 


nemellenőrzött tanítású hálózatok bemutatásánál fogunk tárgyalni. 


A nemellenőrzött tanítású hálók többnyire lineáris neuronokból épülnek fel. Egy ilyen lineáris neuront mutat a 
10.1 ábra, ahol a neuron kimenete a bemenetek súlyozott összegeként áll elő: 


AT 
vy-Wx- MT 
i-] (10.3) 


10.1. ábra - Egy lineáris neuron 


bemenet 






: Eh kimenet 


előrecsatoló súlyvektor 
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Megmutatható, hogy egy lineáris processzáló elem súlyainak Hebb szabály alapján történő módosítása azt 
eredményezi, hogy a processzáló elem kimenetének varlanciája, vagyis 


E[[ — egyy gy 


maximumot vesz fel azzal a feltétellel, hogy 


, w; - konstans 
i (10.5) 


Ez utóbbi feltétel vagy valamilyen normalizáló eljárással, vagy a súlyokra vonatkozó telítési feltétel 
beépítésével biztosítható. 


Bizonyos hálózatoknál alkalmazzák az ún. anti-Hebb tanulási szabályt 15, amelynél — hasonlóan a Hebb 
szabályhoz — a súlymódosítás most 1s a bemenet és a kimenet aktivitásának szorzatával arányos, csak negatív 
előjellel: 


vel) my [£9— og [yo (4) . (10.6) 


Az anti-Hebb szabály — szemben a Hebb szabály kimeneti variancia-maximumra törekvő hatásával — a kimeneti 
varlancia minimumát igyekszik biztosítani. A súlymódosítás mindkét esetben a két aktivitás közötti 
korrelációval arányos, csak a változtatás iránya eltérő. A Hebb- és az anti-Hebb szabályok együttes 
alkalmazásának fontos szerepe van az ún. főkomponens meghatározó hálózatoknál; szerepüket részletesebben 
ezen hálózatok ismertetésénél mutatjuk be. 


2. Versengő tanulás 


A versengő tanulás a nemellenőrzött tanulások csoportjába tartozó másik eljárás, amelynek a célja, hogy egy 
neuronhálónál a neuronok közül egy győztest válasszunk ki. A győztes neuron kimenete aktív lesz, (bináris 
kimenet mellett a kimenet értéke 1 lesz), miközben az összes többi neuron passzív marad (bináris kimenet 
mellett mindegyik 0 értéket vesz fel). A versengő tanulás célja általában a bemeneti mintatér olyan 
tartományokra osztása, szegmentálása, hogy egy adott tartományba tartozó bemenet hatására egy és csakis egy 
processzáló elem aktivizálódjon. Az eljárás tehát egyfajta klaszterkialakítást eredményez. 


A versengő tanulás tulajdonképpen két lépésből áll. Az első lépés során a neuronokból álló elrendezés minden 
processzáló elemének kimenetét meghatározzuk az aktuális súlyvektorok felhasználásával. Ezt követi a győztes 
kiválasztása, amely a "győztes mindent visz" (winner-takes-all) elv alapján működik. A tényleges tanulás, 
vagyis a súlyvektor módosítása csak a győztes kiválasztása után lehetséges, ugyanis a versengő tanulásnál 
csupán a győztes processzáló elem súlyvektorát (vagy a győztes valamely környezetében található processzáló 
elemek súlyvektorait) módosítjuk. Meg kell jegyeznünk, hogy a súlymódosítás a versengő tanulásnál 1s 
általában a Hebb szabállyal történik. A versengő tanulásnál a versengés során tehát valójában tanulás nincs 15. A 
versengés arra szolgál, hogy kiválaszthassuk azt a neuront, melynek a súlyait valamilyen súlymódosító eljárással 
majd módosítani fogjuk. 


A győztes elem kiválasztása többféleképpen történhet. Triviális megoldás, ha kiszámítjuk egy adott bemenetre 
az összes processzáló elem kimenetét, és a legnagyobb kimenettel rendelkező PE, a győztes értékét 1 -re állítjuk, 
az összes többiét pedig nullázzuk. A győztes kiválasztása azonban történhet "automatikusan" 15, amikor a 
processzáló elemek között gy oldalirányú kapcsolatok vannak (ld. 10.2 ábra), és ezen kapcsolatokat megvalósító 
súlyok megfelelő kialakítása (és a kimeneten megfelelő nemlineáris aktivációs függvény alkalmazása) biztosítja, 
hogy a győztes (az ábrán az árnyékolt elem) kimeneti értéke I, az összes többié pedig nulla lesz. 


10.2. ábra - Versengő tanulással tanított hálózat (Kohonen-háló) 
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bemenet 
48! — el 
Md s di kimenet 





előrecsatoló sulyvektorok oldalirányú összeköttetések 


Az oldalirányú kapcsolatok súlytényezői rögzítettek: a közeli processzáló elemek között gerjesztő kapcsolat, a 
távolabbiak között gátló kapcsolat van. 


3. Kohonen háló, kompetitív hálózatok 


A Kohonen háló — hasonlóan számos, eddig bemutatott hálóhoz — biológiai eredetű [Koh82]. A jelenlegi 
ismeretek alapján egyértelműen megállapítható, hogy az agy komplex adatstruktúrák belső modellezésénél 
térbeli leképzést használ [Koh89]. Kohonen ezt az ötletet használta fel, amikor a róla elnevezett hálózatot 
kialakította. A térbeli leképezés biztosítja azt 15, hogy a hálózat adatokat tároljon olyan módon, hogy a tanító 
adatok térbeli és topológiai kapcsolatait megtartsuk és valamilyen jelentéssel bíró módon reprezentáljuk. 


A Kohonen háló alapeleme egy lineáris összegző funkciót megvalósító processzáló elem; a processzáló elemek 
egyetlen rétegben, általában egy sík rácspontjaiban vannak elhelyezve. Minden bemenet a hálózat összes 
csomópontjához (processzáló eleméhez) kapcsolódik. A hálózatban nemcsak előrecsatolást megvalósító súlyok, 
hanem visszacsatolás 15 található, ez azonban a közvetlen szomszédos csomópontokkal való oldalsó 
összekötésekre korlátozódik. A háló további jellemzője, hogy nincs különálló kimeneti réteg — a rács minden 
egyes csomópontja egyben kimeneti csomópont 15. A 10.2 ábrán bemutatott elrendezés valójában egy N- 
bemenetű — M-kimenetű Kohonen hálót mutat. A háló egyes kimenetei a bemeneti komponensek súlyozott 
összegei, vagyis a háló a bemenetek és a kimenetek között lineáris kapcsolatot valósít meg: 


AM 
esse 2, Mijáj 
j-I (10.7) 


Az oldalirányú kapcsolatok rögzítettek; jellegük gerjesztő, ha egy processzáló elem önmagára való 
visszacsatolásáról van szó és gátló a többi esetben. Kialakításukról és szerepükről a későbbiekben szólunk. 
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A Kohonen hálózatoknál az adaptív, önszerveződő tanulás két legfontosabb kérdése a súly-adaptációs eljárás és 
a csomópontok topológiai környezetének fogalma. Mindkét fogalom jelentős mértékben eltér az eddig tárgyalt 
neurális hálózatoktól, ezért a Kohonen hálózat működésének bemutatását erre a két kulcsfogalomra építjük. 


3.1. A Kohonen háló tanítása 


A Kohonen háló súlymódosítása a versengés felhasználásával a Hebb szabályon alapul. Ez azt jelenti, hogy a 
súlymódosítás a Hebb szabály, illetve a Hebb szabály normalizált változata szerint történik; de nem módosítjuk 
a hálózat összes súlyát, hanem csak a győztes processzáló elemét. 


Egy adott bemenet mellett győztes az a processzáló elem, amelyik a legnagyobb kimenetet produkálja. Ha tehát 


TT T 8; ; 
RK ZNI zz 
Wki Z VV; A az összes IdE , (10.8) 


akkor a győztes processzáló elem indexe i". A tanítás során csak ""-ot módosítjuk: 


Látható, hogy a súlymódosítás a Hebb szabály szerint történik, ami — ha figyelembe vesszük, hogy a győztes 
elem kimenete 1 lesz — az alábbi formában 1s felírható: 


AWa7 AX (10.10) 


10.3. ábra - Az oldalirányú kapcsolatokat meghatározó mexikói kalap függvény 


Ez azt mutatja, hogy a módosítás során a súlyvektort azon bemeneti vektorok irányába forgatjuk, amelyek 
mellett az adott elem a győztes. Egy adott neuron súlyvektora ennek megfelelően — konvergencia esetén — olyan 
értékre áll be, amely azon bemenő vektorok átlagaként áll elő, melyek hatására az adott neuron győztessé válik. 
A győztes elem vagy az egyes lineáris kimenetek összehasonlításával választható ki, vagy automatikusan az 
oldalirányú kapcsolatok eredményeképpen alakul ki. Az oldalirányú (gerjesztő és gátló) kapcsolatok ugyanis azt 
eredményezik, hogy annak a neuronnak a kimenete, amelyiknek kezdetben legnagyobb volt az értéke egyre nő, 
míg a többié csökken, addig, amíg a győztes kimenete 1, a többié 0 nem lesz. (Megjegyezzük, hogy a bináris 
kimenetet a legegyszerűbben úgy biztosíthatjuk, ha a lineáris összegzőt Itt 15 egy nemlinearitás — a 0 és 1 közötti 
telítéses lineáris függvény — követi.) 


Az oldalirányú kapcsolatok súlyait a processzáló elemek egymástól való, valamilyen értelemben vett távolsága 
függvényében mutatja a 10.3 ábra, amelyet mexikói kalap függvénynek nevezünk. Az ábrán a (-) Jel a gerjesztő 
kapcsolatot, a (—) Jel a gátló kapcsolatot jelöli. Az oldalirányú kapcsolatok ilyen kialakítása azt 15 biztosítja, 
hogy a háló ún. topológikus leképezést valósít meg, ami azt jelenti, hogy a tanítás során a bemenetre kerülő 
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minták közötti topológiai kapcsolatokat a háló megtartja. A topológikus leképezésről és a most bemutatott 
hálóarchitektúráról bővebben a következőkben szólunk. 


Megjegyezzük, hogy az oldalirányú kapcsolatok ilyen kialakítása biológiai eredetű. Mind anatómiai, mind 
fiziológiai bizonyíték van arra, hogy az emlősök agyában megtalálhatók a szomszédos neuronok között a 
gerjesztő és gátló kapcsolatokat megvalósító oldalirányú összeköttetések [Koh89] 


A súlyok (10.9) 11II. (10.10) szerinti módosítása önmagában azonban nem alkalmazható, hiszen azt eredményezi, 
hogy a súlyok minden határon túl nőhetnek. A korrekt versengéshez pedig az kell, hogy a súlyoknak ne az 
abszolút értéke, hanem az iránya határozza meg a győztest. A megoldást a súlyok normalizálása jelenti. A 
normalizálásra több lehetőség 15 van. Leggyakrabban az ún. standard versengő tanulást szokták alkalmazni, ami 
a következő: 


Banja — ix we] (10.11) 


Ez az eljárás biztosítja a súlyvektorok folyamatos normalizálását feltéve, hogy a bemeneti vektorok 1s 
normalizáltak. 


A Kohonen háló megfelelő működéséhez 15 szükség van a súlyok kezdeti beállítására és a tanulási tényező 
megválasztására. 


A súlyvektorok kezdeti értékének beállításánál némi óvatosságra van szükség. Az általános javaslat most 15 az, 
hogy indulásnál a hálózat súlyait véletlenszerű, normalizált értékekre állítsuk be. Azonban, ha a súlyvektorok 
valóban véletlen értékeket vesznek fel, lehetséges, hogy a tanítás nem lesz konvergens vagy a háló nagyon 
lassan fog tanulni. Ennek oka jórészt intuitív módon mutatható meg. Tipikus esetekben a bemeneti tanító 
vektorok a mintatér korlátozott tartományában valamilyen klasztert fognak képezni. Ha a hálózat súlyvektorai 
véletlenszerűen szóródnak, akkor könnyen előállhat az az eset, amikor sok súlyvektor iránya különbözik 
jelentősen a tanító minták többségének irányától. Az ilyen súlyvektorokkal rendelkező processzáló elemek 
sohasem fognak győzni (ún. halott processzáló elemek), és így nem 1s vesznek részt a tanulási folyamatban. 
Amennyiben túl sok halott neuronunk van, a háló tényleges mérete és képessége nem lesz elegendő a kitűzött 
feladat megoldására, pl. megfelelő számú klaszter kialakítására. Mindenképpen olyan megoldásra van szükség, 
amely minél több processzáló elemet bevon a tanulásba. Ennek érdekében a következő lehetőségekkel élhetünk: 


e a súlyvektorok kezdeti értékeit magukból a tanítópontokból választjuk, 


e nemcsak a győztes, hanem a többi neuron súlyvektorait 15 módosítjuk, de kisebb 4-vel; így a vesztes neuronok 
súlyvektorai 15 módosulnak és ezért esélyük lesz arra, hogy győztessé váljanak (ezt a tanulási változatot szivárgó 
tanulásnak (leaky learning) nevezik), 


e geometriai alakzatban elrendezett neuronok esetében a győztes adott környezetében lévőket 15 módosítjuk a 
győztessel megegyező vagy ahhoz hasonló módon (ez a változat az ún. Kohonen térképet eredményezi, amit 
önszervező térképnek 1s szokás nevezni, Id. később), 


Fa zt a 


axtr([1—ajv 


győztes neuron súlymódosítása , ahol £ kezdetben 0, majd lassan növekszik 1-re, 


e a hálózat lineáris kimenetéből egy változó küszöbértéket vonunk ki; a gyakran győztesnél a küszöböt növeljük, 
így nehezebben lesznek ismét győztesek, a ritkán győzőknél pedig a küszöb csökkentésével a győzelmi esélyt 
növeljük, 


e a bemeneti vektorokhoz zajt adunk, amelynek elég nagy a szórása ahhoz, hogy "mindenfajta" x érték 
előforduljon, így minden neuront be tudunk vonni a módosításokba. 


A Kohonen hálót Kohonen térképnek, vagy önszervező térképnek (Kohonen map, self-organizing map, SOM) 
hívjuk, ha a bemeneti minták topológiai kapcsolatait 15 megőrzi: hasonló bemeneti mintákra egymáshoz 
geometriailag közelálló neuronok válaszolnak győztesként. (Ehhez az kell, hogy a Kohonen háló processzáló 
elemei között 1s értelmezni lehessen szomszédsági viszonyokat. A Kohonen térkép esetén a neuronok általában 
vagy egy vonal mentén vagy egy síkban vannak elrendezve, ahol a szomszédság definiálható.) Kohonen a 
topológikus kapcsolatok modellezésére javasolta az ún. környezetek definiálását és ehhez kapcsolódóan egy 
módosított tanulási szabály alkalmazását. Környezetnek nevezzük a győztes processzáló elem valamekkora — 
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általában dinamikusan változó méretű — szomszédságában lévő processzáló elemek összességét. A módosított 
tanulási szabály a következő: 


e nemcsak a győztes neuron súlyait módosítjuk a tanulás során, hanem a győztes adott méretű környezetében 
lévőket is, 


e a tanulás során a környezetet csökkentjük, mintegy rázsugorítjuk a győztes neuronra, a környezet összes 
neuronjának súlyait a győztessel azonos tanulási szabály alapján módosítjuk: 


Aw, — kDlg re (x—w;] 1—1.2..M (194) 


Itt Hés "az i-edik, illetve a győztes processzáló elem geometriai helyét adja meg, ölni iz. .) pedig az ún. 


szomszédsági függvény. A szomszédsági függvény megfelelő megválasztása alapvető fontosságú a topológiai 


tulajdonságok megtartása szempontjából. A rendszerint szimmetrikus függvény i-—i"-nál Úri 758 e) 1 értéket, az 
it-hoz közeli i értékekre 1-höz közeli értéket vesz fel, és a győztes neurontól való euklideszi távolság 
függvényében monoton csökken. Egy lehetséges választás: 


. h-s 


BIT, Tr J- e , (10.13) 


A 
ahol 9 aszomszédság szélességét befolyásoló, a tanulás előrehaladtával csökkenő értékű paraméter. 


A súlyok alakulása a Kohonen térkép lépésenkénti felrajzolásával követhető. A Kohonen térkép egy olyan 
összekötött pontelrendezés a súlyvektor térben, ahol az egymással szomszédos neuronok súlyvektorainak 
végpontjai vannak összekötve. A Kohonen térkép alakulását mutatja be a tanulás folyamán a Kohonen mozit, 
melynek néhány képkockáját mutatja a 10.4 ábra. 


Az ábrán olyan esetet mutatunk be, ahol a bemeneti mintapontok egy kétdimenziós egyenletes eloszlású 
valószínűségi változó egyes realizációi, a háló processzáló elemeit pedig egy egyenletes négyzetrács 
rácspontjaiban helyezzük el. Ebben az esetben, ha a Kohonen háló topológiai leképezést valósít meg, akkor egy 
adott geometriai pozícióban lévő neuron a bemeneti adatok azon részhalmazába tartozó minták hatására 
aktivizálódik, melyek geometriai elhelyezkedése a bemeneti mintatérben a processzáló elem geometriai 
elhelyezkedéséhez közeli. Látható, hogy a kunduló helyzetben (a) az egyes processzáló elemek súlyvektorai 
véletlen elhelyezkedésűek, és ahogy a tanítással előrehaladunk — 200 iteráció után a (b), 4000 után a (c) ábrák —, 
a súlyvektorok kezdenek beállni a bemeneti minták eloszlásának megfelelően. A háló tanításának 
előrehaladásával — a 10.4 (d) ábra 78000 iterációs lépés utáni állapotot mutat — a súlyvektorok egyre inkább egy 
egyenletes rács pontjaira mutatnak, vagyis a súlyvektorok irányai megfelelnek a megfelelő neuronok topológiai 
elrendezésének; a Kohonen térkép tükrözi a hálózat bemeneti adatainak eloszlását. Az ábrákon a színes ,,4" 
jelek a tanítópontokat jelzik. 


10.4. ábra - A Kohonen térkép 
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A topológiai térkép kialakulása általában két tanulási szakaszban valósul meg. Az első szakaszban egy durva 
leképezés jön létre, ekkor a térkép pontjai nagymértékben változnak, a tanulás viszonylag nagy tanulási 
együtthatóval történik (tipikusan u 5 0,5). A második szakaszban következik a súlyok finom-hangolása. Ekkor a 
súlyokon kisebb változásokat kell eszközölni, ezért a tanulási együttható kisebb, és az eljárás során fokozatosan 
még tovább is kell csökkentenünk. A finomhangolási szakasz tipikusan mintegy 100-1000-szer annyi lépést 
igényel, mint a durva leképezés kialakulása. A tanulás során előfordulhat, hogy egyes neuronok súlyvektorai a 
pozíciójuknak megfelelő súlyvektorok tükörképének felelnek meg. Ilyen esetre mutat példát a 10.4 (c) ábra, ahol 
a súlyvektorokat reprezentáló háló megcsavarodva látszik. A megcsavart állapotból általában különösen lassan 
alakul ki a mintapontok eloszlását tükröző súlyvektor-eloszlás. A 10.4 (d) ábra mutatja 15 ezt, hiszen a sok 
tízezer tanítólépés még mindig nem eredményezte a súlyvektorok egyenletes eloszlását. 


Az önszervező térkép (SOM) számos alkalmazása közül ki kell emelni a szövegbányászati alkalmazásokat, 
melyet az utóbbi években a SOM kiterjesztéseként kifejlesztett WEBSOM felhasználásával oldhatunk meg 
sikeresen [Koh00], [Lag02], [Lag04]. A WEBSOM módszer az önszervező térképet (SOM) használja szöveges 
dokumentumok kétdimenziós térképre való leképezésére. A térképen a hasonló dokumentumok azonos vagy 
egymáshoz közeli térkép-elemfek)en jelennek meg és minden egyes térkép-elemhez egy mutató 1s tartozik, ami 
a dokumentum adatbázisra mutat. Ezáltal egy keresésnél, miközben azon dokumentumokat megtaláljuk, melyek 
legjobban illeszkednek a kereső kifejezésre, további releváns eredményeket is találunk, melyek a megtalált 
dokumentumokat jelképező térképelemmel azonos vagy ahhoz közeli térképelemre voltak leképezve, 
függetlenül attól, hogy a keresési kifejezésnek megfeleltek-e vagy sem. A WEBSOMOot kimondottan nagy 
szöveggyűjteményekben való keresésre dolgozták kt. 


3.2. Felügyelt tanulás alkalmazása Kohonen hálózatnál: tanuló 
vektorkvantálás (LVO). 
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Annak ellenére, hogy a Kohonen hálózat felügyelet nélküli tanulást használ, Kohonen kialakított egy ellenőrzött 
tanuláson alapuló változatot 15, amit tanuló vektorkvantálásnak nevezett el (learning vector guantization, LVO) 
[Koh86], [Koh90]. 


Vektorkvantálásnak azt az eljárást nevezzük, amikor adattömörítési céllal a bemeneti vektorok egy tartományát 
az egész tartományt jellemző egyetlen vektorral, az ún. prototípus vektorral ill. a vektor sorszámával 
reprezentálunk. Vektorkvantálásnál tehát a bemeneti teret diszjunkt tartományokra bontjuk. Egy adott 
tartományt reprezentáló prototípus vektor (vagy a vektor sorszáma) úgy tekinthető, mint az adott tartományba 
eső bemenő vektorok kódja, ahol a lehetséges kódok száma — a diszjunkt tartományok száma — általában jóval 
kisebb, mint a lehetséges bemenő vektorok száma. A diszjunkt tartományokat reprezentáló kódok együttesét a 
vektorkvantálásnál kódkönyvnek nevezzük. Ha a kódkönyv elemeit, illetve a tartományokat úgy alakítjuk kt, 
hogy a tartományba eső bemenő vektoroknak a tartomány prototípusától vett átlagos euklideszi távolsága 
minimális legyen, akkor a vektorkvantálót WVoronoi kvantálónak, a tartományokat pedig  Voronoi 
tartományoknak vagy Voronoi régióknak nevezzük. A Voronoi tartományokat reprezentáló vektorok a Voronoi 
vektorok. 


A tanuló vektorkvantálás valójában a Voronoi tartományok kialakításánál egy kétlépcsős eljárás második 
lépése: a Kohonen önszervező térkép által kialakított felosztás finomítását ellenőrzött tanulással biztosítja. Az 
ellenőrzött tanulás során a Voronoi vektorok és így a Voronoi régiók kismértékű módosítása következik be, 
javítva, finomítva a bemeneti mintatérben a klaszterek kialakítását és a Kohonen osztályozó minőségét. 


A hálózat tanítása a következőképpen történik: a bemeneti tér egy vektorát a hálózatra adjuk, majd a választól 
függően végezzük a súlymódosítást: 


e ha a győztes neuron PE) a kívánt neuronnal egyezik meg, akkor ennek súlyait a Kohonen szabály szerint kell 
módosítani: 


vagyis a Voronoi vektort az őt győztesként kiváltó bemenő vektor irányához közelítjük, 


e ha győztes nem a megfelelő PE, akkor a győztes súlyvektorát a Kohonen szabály (-1)-szeresével módosítjuk: 


BM 5; 7 VEG ) , 10.15) 


vagyis Itt épp ellenkezőleg, az adott bemenő vektor irányától távolítjuk. 


A fenti LVOI-nek nevezett eljárást Kohonen 1986-ban javasolta [IKoh86]. Az eljárásnak később módosított 
változatai 15 születtek (LVO2, LVO3), melyek tovább finomítják a klaszterek kialakítását. Az alábbiakban csak 
az LVO2 szabály lépéseit foglaljuk össze, az LVO3 eljárással kapcsolatban csak az irodalomra utalunk [Koh90]. 


Az LVO2 tanulási szabálya: 


e ha a győztes neuron PE] a megfelelő PE, akkor az előző szerint módosítjuk a súlyait: 


ÉM 7 2 Mé ), (10.16) 


e ha azonban a győztes nem a megfelelő PE, és " lenne a megfelelő neuron indexe, továbbá, ha a bemenő 
vektor (Xx) az i" és az " indexű tartományok határvonalához közel helyezkedik el az i" indexű oldalon, akkor a 
súlymódosítás: 


BM EY EZ Té ) , 10.17) 
ÉS 
BM j - BV; Éz s Mhás ) (10.18) 
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e egyébként az előzőek (LVOLl) szerint történik a súlymódosítás. 


A tanuló vektorkvantálásnak számos alkalmazását ismerjük. Ezek közül az egyik első az ún. fonetikus írógép 
(phonetic typewriter), melyet Kohonen a finn beszéd felismerésére hozott létre [Koh88]. A fonetikus írógép egy 
olyan összetett rendszer, amely hagyományos digitális jelfeldolgozó eljárásokat (spektrumanalízis), neurális 
hálózatot (Kohonen térkép) és szakértői rendszert együttesen alkalmazva oldja meg a beszédfelismerési 
feladatot. 


4. Adattomorítés Hebb tanuláson alapuló 
hálózatokkal, PCA, KLT 


A neurális hálózatok egyik fontos alkalmazási területe az adattömörítés. Az adattömörítést általában az adatok 
hatékonyabb reprezentációja céljából végezzük, de alkalmazásával az is lehet a célunk, hogy az eredeti 
adatokból a későbbi feldolgozás szempontjából lényeges információt kiemeljük, és a lényegtelent elhagyjuk. Az 
adattömörítést ekkor lényegkiemelés érdekében végezzük. Az adattömörítés — többek között — elvégezhető 
olyan — lineáris vagy nemlineáris — transzformációk segítségével, amelyek egy adott, többdimenziós térbeli 
vektort kisebb dimenziós altérbe transzformálnak (vetítenek). Az ilyen típusú feladatoknál két nehézséggel 
találjuk magunkat szemben. Először 15 meg kell találnunk azt a kisebb dimenziós alteret, amelyben az eredeti 
vektor hatékonyan ábrázolható. Másodszor, ha a megfelelő alteret megtaláltuk el kell végezzük a bemeneti 


lt Aszt d 


A hatékony ábrázolás az alkalmazási körtől függően különbözőképpen definiálható. Adattömörítésnél 
törekedhetünk arra, hogy az altérbe való vetítés során a vektor reprezentációnál a közelítő ábrázolásból adódó 
hiba minél kisebb legyen. Ebben a megközelítésben definiálni kell valamilyen hibakritériumot, pl. átlagos 
négyzetes hibát, majd egy olyan, az eredeti dimenziószámnál kisebb dimenziós altér megtalálása a feladat, 
amelybe vetítve a kiinduló vektort a kritérium szerint értelmezett reprezentációs hiba a lehető legkisebb lesz. 
Más feladatnál, pl. felismerési vagy osztályozási feladatot megelőző lényegkiemelésnél a reprezentáció akkor 
tekinthető hatékonynak, ha az altér dimenziója minél kisebb, miközben a közelítő reprezentációban mindazon 
információ megmarad, amely a felismeréshez, osztályozáshoz elegendő. Ebben az esetben tehát nem 
követelmény a kiunduló vektor minél kisebb hibájú reprezentálása, csupán arra van szükség, hogy olyan kisebb 
dimenziós ábrázolást kapjunk, amely a feladat szempontjából szükséges lényeges információkat megtartja. 


E feladatok megoldására univerzális eljárás nem létezik. Általában a megfelelő altér feladat- és adatfüggő, tehát 
a tényleges feladattól függetlenül előre nem meghatározható, és mind az altér meghatározása, mind a 
transzformáció elvégzése meglehetősen számításigényes. Éppen ezért jelentős eredmény, hogy mind az 
ellenőrzött, mind a nemellenőrzött tanítású hálózatok körében találunk olyan hálókat, melyek hatékony 
eszköznek bizonyultak az adattömörítési feladatok megoldására. 


A lineáris adattömörítő eljárások között kitüntetett szerepe van a Karhunen-Loéve (KL) transzformációnak 
(KLT), amely az eredeti jeltér olyan ortogonális bázisrendszerét és az eredeti vektorok ezen bázisrendszer 
szerinti transzformáltját határozza meg, amelyben az egyes bázisvektorok (bázisfüggvények) fontossága 
különböző. Egy N-dimenziós térből kundulva az új bázisvektorok közül kiválasztható a legfontosabb M c N 
bázisvektor, amelyek egy M-dimenziós alteret határoznak meg. Egy vektornak ezen altérbe eső vetülete az 
legkisebb, vagyis a KLT a közelítő reprezentáció szempontjából a lineáris transzformációk között optimális 
bázisrendszert határoz meg. 


10.5. ábra - A Karhunen-Loeéve transzformáció 
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A KL transzformáció működését illusztrálja a 10.5 ábra. A transzformáció feladata az eredeti Xi, X 
koordinátarendszerben ábrázolt adatokból kundulva az x:, x: koordinátarendszer megtalálása, majd az 
adatoknak ebben az új koordinátarendszerben való megadása. Látható, hogy míg az eredeti 
koordinátarendszerben a két komponens fontossága hasonló, addig az új koordinátarendszerben a két 
komponens szerepe jelentősen eltér: x mentén jóval nagyobb tartományban szóródnak a mintapontok, mint x: 
mentén, tehát az egyes mintapontok közötti különbséget az x koordináták jobban tükrözik. Amennyiben az 
eldobnunk; így lesz a közelítés hibája minimális. A KL transzformáció szokásos elnevezése a matematikai 
statisztikában faktoranalízis vagy főókomponens analízis (principal component analysis, PCA) . Egy x vektor x 
és x ? Irányú vetületeit főkomponenseknek 15 szokás nevezni. Közelítő reprezentációnál a főkomponensek közül 
csak a legfontosabbakat tartjuk meg, a többit eldobjuk. Az ábrán látható esetben ez azt jelenti, hogy egy x vektor 
legfontosabb főkomponense az x : tengely irányú vetülete. 


Az alábbiakban előbb bemutatjuk a KLI származtatását, majd olyan neurális hálózatok felépítésével, 
működésével és tanításával foglalkozunk, melyek a KLT megvalósítására alkalmasak. 


4.1. A KL transzformáció és optimalitása 

A KL transzformáció alapfeladata a következő: keressük meg azt az ortogonális (ortonormált) bázisrendszert, 
amely átlagos négyzetes értelemben optimális reprezentációt ad, majd e bázisrendszer segítségével végezzük el 
a transzformációt. Az eddigiekhez hasonlóan diszkrét reprezentációval dolgozunk, tehát a bemeneti jelet az x N- 


dimenziós vektorok képviselik, a transzformációt pedig egy T mátrixszal adhatjuk meg. 


E szerint a transzformált Jel (y) előállítása: 
y-1x (10.19) 


ahol transzformációs mátrix a "! bázisvektorokból épül fel: 
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T 
1 - [91.02 szé pay] . (10.20) 
Mivel bázisrendszerünk ortonormált, ezért: 


ESŐ TET s a TT a r-] 
9 9J—Ój ebbőladódóan TT-L vagyis T" -T" (1021) 


dől söletöt 4 


négyzetes hibája minimális legyen. Mivel x előállítható, mint a Ti bázisvektorok lineáris kombinációja 


AT 
A — 2.0; 
i-] (10.22) 
ahol P? a 9: irányú komponens nagysága, és mivel a közelítő reprezentáció 


AM 
£- Vo MEN 
iz] , (10.23) 


az átlagos négyzetes hiba felírható az alábbi formában: 














; ue N M z N 8 
E - 2-8] j-8 29-i t- 2, E) 
i—] i-] i—-Af- 


. (10.24) 


Továbbá, mivel 
zi ás 
HiX (10.25) 
a következő összefüggés is az átlagos négyzetes hibát adja meg: 


NM NM NM 
ez Y zlloíx][39]j- DX orzisz hez XV Ragi 
i-/d al i-/d al i-/d al , (10.26) 


ahol Fxx az x bemenet autokorrelációs mátrixa. A továbbiakban feltételezzük, hogy E(x)j-0, ekkor Kex 


helyett Cxx , vagyis X kovarianciamátrixa szerepel az átlagos négyzetes hiba kifejezésében. 


Kátai Da ási I - isz 
Ezekután keressük meg azt a ?; bázist, amely mellett 7 minimális lesz. Mivel a ?; 9: ! feltételt be kell 
tartanunk, feltételes szélsőértéket kell keresnünk. A Lagrange multiplikátoros módszert alkalmazva 


NM NM 
83-57 9 2lor9-1)- DX [Cse 2[979-1) ] 
i- Ma1 i- Ma1 , (10.27) 


ahol 761 -k, (i-M--1,..., N) a Lagrange multiplikátorok. A (10.27) összefüggés 9: szerinti szélsőértékét keressük, 
vagyis a 


8 A 
Bo; I za [Cséti — ZA Ap; ] -0 


(10.28) 
feltételt kell kielégítenünk. Ehhez az szükséges, hogy teljesüljön a 
Cxx0; — Aj (10.29) 
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összefüggés, vagyis a KLT bázisrendszerét alkotó Pi: vektorok a bemeneti jel autokorrelációs (autokovartancia) 
mátrixának sajátvektorai legyenek. A közelítő, M-dimenziós reprezentáció esetén elkövetett hiba ilyenkor 


2 ad vi ll Tr d 
Z - 9, p; Ep; — bá e; App; — pa A; 


i-if 1 j— if 31 i—Aal — (10.30) 


ahol a ú. értékek az autokovariancia mátrix sajátértéket. 

Minimális hibát nyilvánvalóan akkor fogunk elkövetni, ha a (10.30) összefüggésben a ú sajátértékek 
(i-M--1,...,N) a mátrix legkisebb sajátértékei, vagyis a közelítő, M-dimenziós reprezentációnál az autkovartiancia 
mátrix első M legnagyobb sajátértékéhez tartozó sajátvektort, mint M-dimenziós bázist használjuk fel. A 
bemeneti jel ezen vektorok irányába eső vetületei lesznek a főókomponensek (innen ered a főkomponenst analízis 
elnevezés). Megjegyezzük, hogy a KL transzformáció korrelálatlan komponenseket eredményez, vagyis a 


transzformált jel autokovariancia mátrixa diagonál mátrix, melynek főátlójábana " ! sajátértékek vannak. 


A KLT tehát egy kétlépéses eljárás: először a bemeneti jel autokorrelációs (autokovartancia) mátrixát, és ennek 
sajátvektorait és sajátértékeit kell meghatározni, majd ki kell választani a legnagyobb M sajátértéknek megfelelő 
sajátvektort, amelyek a megfelelő altér bázisait képezik. A bázisrendszer ismeretében lehet elvégezni második 
sajátvektorok meghatározása, mind a későbbi transzformáció elvégzése számításigényes feladat), fontos 
eredmény, hogy léteznek olyan neurális hálózatok, amelyek e feladatok megoldására alkalmasak. A KLT-t 
megvalósító neurális hálózatokat az irodalomban PCA hálózatoknak nevezik. E hálózatok a következőkben 
bemutatásra kerülő OJja szabályon alapulnak. 


4.2. Az Oja szabály, a legnagyobb sajátértéknek megfelelő 
sajátvektor meghatározása 


A bementi jel legfontosabb főkomponensének (az autokovariancia mátrix legnagyobb sajátértékéhez tartozó 
sajátvektor irányába eső Jel-vetületnek) meghatározására Erkki Oja javasolt egy, a Hebb tanuláson alapuló hálót 
[0]a82]. 


A háló egy egyszerű, lineáris, előrecsatolt hálózat, amely legegyszerűbb formájában tulajdonképpen egyetlen, 
lineáris kombinációt megvalósító processzáló elem. Az Oja háló felépítésében tehát megegyezik a 10.1 ábrán 
bemutatott egyszerű lineáris neuronnal. Az Oja háló a bemeneti N-dimenziós vektort vetíti a kimeneti 
egydimenziós térbe. E háló specialitását nem i1s a felépítése, hanem a tanulási eljárás adja. A súlyok 
meghatározására a Hebb tanulást, 1II. annak módosított változatát alkalmazzuk. 


Vizsgáljuk meg, hogy mit eredményez a Hebb tanulás a hálózatnál. Bemenetként N-dimenziós véletlen 
vektorokat használunk. Megmutatható [O0]a82], hogy a hálózat a tanulási szabály alkalmazásával valamilyen 
egyensúlyi helyzet elérésére törekszik. Ez az egyensúlyi helyzet akkor áll be, ha a súlyvektor a bemeneti 
vektorok autokorrelációs mátrixának egy sajátvektora lesz. Stabil állapot azonban csak akkor érhető el, ha ez a 
sajátvektor a legnagyobb sajátértékhez tartozó sajátvektor. Vagyis a hálózat kimenetén a bemenet legfontosabb 
főkomponensét kapjuk, ami a bementi vektorok legfontosabb sajátvektor irányú vetülete. 


A Hebb tanulás önmagában azt eredményezi, hogy a súlyvektorok a tanulás során minden határon túl 
növekedhetnek. A növekedésnek határt kell szabni, ami normalizálás útján érhető el. A normalizálás 
biztosítható, ha a Hebb szabályt az alábbiak szerint módosítjuk: legyen a tanulási szabály a következő: 


Aw - agyba I) 1031) 


vagyis egészítsük ki a Hebb tanulási szabályt egy taggal. Az OJa szabály egy olyan w súlyvektorhoz konvergál, 
amelynek a tulajdonságai az alábbiak: 
e a w súlyvektor az R autokorrelációs mátrix legnagyobb sajátértékének megfelelő sajátvektor irányú vektor (a 


továbbiakban az egyszerűség kedvéért a bemenet autokorrelációs mátrixának jelölésére E ex helyett R-et 
használunk). 
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e a súlyvektor normalizált: rtl 7: ; 


e a w irány olyan, hogy a bemenetnek ebbe az irányba eső vetületének lesz a legnagyobb a varilanciája, vagyis a 


A 
kimenet (y) varlanciája ( t ) akkor lesz a legnagyobb, ha y a bemenet w irányú vetületének a hossza. A 
varlancia: 


Ely 7 wT Efxxi wz júl (10.32) 


Egyensúlyi helyzetben 
ET Am § B El y[ 7 gM 9] -Ú (10.33) 
vagy vektorosan felírva: 


E[Awv] - Rrr— [w"Rwjw- Ü 
. (10.34) 


Tehát egyensúlyi helyzetben a súlyvektornak ki kell elégítenie az 


Rw- AwW (10.35) 


összefüggést, ahol 


A, — www — wi Aw — alter (10.36) 


A (10.35) összefüggés mutatja, hogy egyensúlyi állapotban w az R sajátvektora kell legyen, továbbá, ha NI 1, 
akkor 4 a megfelelő sajátérték. 


Hogy az OJja szabály valóban a Hebb szabály normalizált változata, az alábbiak szerint látható be. Az eredeti 
Hebb szabály szerint a súlymódosítás: 


éler1)- wir axikjyik) 1037) 


wlik-41] 


ahol most nem normalizált. Normalizáljuk a módosított súlyvektort: 


ve(kj- esne (ej 


. [éz] . (10.38) 


szi -]1 ME 4 
Tév(4 jj úl meghatározásához írjuk fel Tér(4 bj nil 


4-0 környezetében. 


-et, majd ennek (-1/2)-edik hatványát fejtsük Taylor sorba 


[eza - (ot ezer z(xjy(xj ol) 


8 2 2 2 

mr - 1 
Figyelembe véve, hogy fer JI . — , vagyis hogy az előző lépésben a súlyvektor már normalizált, a következőt 
kapjuk: 


8 a NN f 
leízrÚ[  -1-4y (kj ola úszó 
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Felhasználva a (10.37), (10.38) és (10.40) összefüggéseket és a u-ben magasabbrendű tagokat elhanyagolva: 


ve(ier1)- [(x)- éz (xy (e) ][1—- 497 (x)-0(42) 


8 


kr gy (ej [x(4-wix)yle) , (10.41) 
ami megfelel (10.31)-nek. 


Fentiekben megmutattuk, hogy az OJja szabály alapján végzett tanulás eredményeképp — feltéve, hogy a tanuló 
eljárás konvergens (a konvergencia tényét azonban nem bizonyítottuk) — a súlyvektor egy 4 sajátértékhez 
tartozó sajátvektorhoz tart. Azt azonban még meg kell mutatni, hogy 4 egyben a legnagyobb sajátérték, vagyis 


f max , 


Ehhez tételezzük fel, hogy w az R valamelyik sajátvektorához, Pi höz áll közel. Vizsgáljuk meg, hogyan alakul 


a tanulás során a súlyvektor változása, tekintsük a súlyvektorváltozások várható értékét EL Aw; 


Ww - 0; -HE 


-t. Minthogy a 


súlyvektor az egyik sajátvektorhoz áll közel: és feltéve, hogy normalizált sajátvektorokkal 


dolgozunk, vagyis le; - 


E[Aw]- B[el- Re-24, [ef o; ) 0— Ae 0le? ) 04 


ahol A a "Pi sajátvektorhoz tartozó sajátérték. 


Annak eldöntésére, hogy a súlyvektor melyik sajátértékhez tartozó sajátvektorhoz tart, vegyük a 


súlyvektorváltozás várhatóértékének egy másik normalizált sajátvektorra, P.J re vett vetületét és hanyagoljuk el 


az 0(e") tagot. 


99) (9-2 (o) e-24 [eor]aj- (o) e-[4-4-248)(ej) e 


(10.43) 


Látható, hogy ez a vetület csökken, ha A a nagyobb, és növekszik, ha A a nagyobb sajátérték. Tehát ha 4. 5 A 
, akkor a súlyvektor a nagyobb sajátértéknek megfelelő sajátvektor irányába fordul be. 


4.2.1. Az Oja algoritmus, mint szélsőérték-kereső eljárás 


Az Oja algoritmus a fentiektől eltérően szélsőérték-kereső eljárás eredményeként 15 származtatható, minthogy a 

bemenő sztochasztikus vektorfolyamat mintáinak a legnagyobb sajátvektor irányában vett vetülete várható 
8. 2 

f(wj-Ejy 


értékben maximumot kell adjon. Keressük tehát maximumát w függvényében. 


yi w Rw 
JT mea 
wow o Wow (10.44) 








hi 
Felírva a deriváltat és figyelembe véve, hogy W Ww-! adódik, hogy 


Hl szálas 
Vő/lw)]- 2Rw [w Rw2w (lős 


R - E xx ; 
Ha figyelembe vesszük, hogy 
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vfiw) : 2 xx pw 2E ő xx wiw 


— 28 (xy) - 28) yb , (10.46) 


továbbá, ha az LMS algoritmushoz hasonlóan a pillanatnyi gradiens alapján számolunk, vagyis a várhatóérték- 
képzést nem végezzük el, akkor: 


V7Íwj]- 2xy-— gyówr (10.47) 


ami az OJa szabályt adja. Az OJja szabály (10.47) összefüggése egy sztochasztikus gradiens algoritmus, mivel a 
gradiens számításnál a várhatóérték-képzést elhagyjuk. 


Megjegyezzük, hogy az (10.44) összefüggést Rayleigh hányadosnak 15 nevezik [Gol96b], mely, ha w az R 
mátrix egy sajátvektora, a hányados a megfelelő sajátértéket adja. Ebből 15 következik, hogy (10.44) w szerinti 
maximuma a legnagyobb, minimuma a legkisebb sajátértéket eredményezt. 


Összefoglalva, megállapítható, hogy az Oja hálózat a módosított Hebb tanulással, a legnagyobb sajátértéknek 
megfelelő sajátvektort alakítja ki súlyvektorként, amennyiben a tanulási szabály konvergens. A konvergencia 
bizonyítható, azonban a bizonyítás menete bonyolult és az eljárás lényegének megértéséhez nem Járul hozzá, 
ezért nem mutatjuk be. A bizonyítás a megfelelő irodalomban [0]a82] megtalálható. 


4.3. Főkomponens- és altér hálózatok 


A különböző alkalmazásokban a legfontosabb sajátvektornak és az ebbe az irányba eső főkomponensnek a 
meghatározása általában nem elegendő. Olyan hálózatot szeretnénk kapni, amely N-dimenziós bemenetből 
kiindulva az M legfontosabb sajátvektor (M £ N) meghatározására képes. 


Az Oja hálózatot, illetve az Oja szabályt többféleképpen módosították, melynek eredményeképpen létrejött 
hálózatok alkalmasak a teljeskörű főókomponens analízisre, vagyis képesek a bemeneti jel KL transzformáltjának 
meghatározására. Ezeket a hálózatokat főókomponens hálózatoknak (principal component networks) nevezzük. 


Az Oja hálózaton alapuló hálózatok egy másik csoportja, amely csoport tagjai — bár nem a tényleges 
főkomponenseket, vagyis a legfontosabb sajátvektorok irányába eső vetületeket határozzák meg — a 
főkomponens . analízissel rokon eredményre vezetnek. Adattömörítésnél ugyanis nincs feltétlenül szükség 
magukra a főirányokra, tehát a legfontosabb sajátvektorokra, sokszor elegendő, ha csak azt az alteret és ebbe az 
altérbe eső vetületet határozzuk meg, amelyet az első M legfontosabb sajátvektor feszít ki. Az alteret nemcsak a 
sajátvektorok határozzák meg, hanem bármely bázisa. Azokat a hálózatokat, amelyek az alteret és a bemeneti 
vektorok altérbe eső vetületeit meghatározzák, de a sajátvektorokat nem, altér hálózatoknak (subspace 
networks) nevezzük. Az alábbiakban előbb egy altér hálózatot ismertetünk, majd az eredeti OJa hálózat olyan 
módosításait vizsgáljuk, amelyek a tényleges főkomponensek meghatározását eredményező hálózatokra 
vezetnek. 


4.3.1. Oja altér hálózat 


Az Oja altér hálózat az OJja algoritmussal tanított elemi neuron kiterjesztése olyan többkimenetű hálózattá, 
amely nem a legfontosabb főkomponens meghatározását végzi, hanem az első M sajátvektor által kifeszített 
altérbe vetít. A hálózat tehát átlagos négyzetes értelemben minimális hibájú közelítést eredményez. Minimális 
átlagos négyzetes eltérést biztosító megoldást kapunk, ha az eredeti OJja szabályt egy M-dimenziós y kimeneti 
vektorra alkalmazzuk. Az eredmény az OJa általánosított szabály [0]a83]: 


ANY - u WxxT E: [wssöwT jw] 
, (10.48) 


T 
ahol b —ÍWI.W2,. va VM az M-kimenetű háló súlyvektoraiból, mint sorvektorokból képezett mátrix. 


Az Oja altér hálózat egy N-bemenetüű—M-kimenetű hálózat, amely egyetlen, lineáris neuronokból felépülő 
rétegből áll. Mivel az Oja altér háló súlyvektorai nem a sajátvektorokhoz konvergálnak, hanem a sajátvektorok 
által kifeszített tér egy bázisához, az általánosított Oja szabályt Oja altér szabálynak 15 szokás nevezni. 
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Az Oja altér hálózaton kívül egyéb, kisebb-nagyobb mértékben eltérő felépítésű altér hálózatot publikáltak (pl. 
[Föl89]). A Földiák háló az előrecsatoló súlyokon kívül a neuronok között szimmetrikus oldalirányú súlyozott 
kapcsolatokat 15 használ. Az előrecsatoló súlyokat a Hebb szabállyal, az oldalirányú kapcsolatok súlyait pedig 
az anti-Hebb szabállyal tanítja. Bizonyítható, hogy az előrecsatoló súlyvektorok itt 15 olyan vektorokhoz 
konvergálnak, melyek a megfelelő számú legfontosabb sajátvektor által kifeszített tér egy bázisát képezik. Ez, 
illetve egyéb altér háló változatok lényegi újdonságot — különösen a műszaki alkalmazási lehetőségeket tekintve 
— nem hoznak, ezért a részletesebb bemutatásukra nem térünk kit. 


4.3.2. Főkomponens hálók 


Az alábbiakban a valódi főkomponensek meghatározására alkalmas két hálózatot mutatunk be. E hálózatok a 
processzáló elemek számának megfelelő számú sajátvektort és a bemeneti vektorok ezen sajátvektor irányokba 
eső vetületeit határozzák meg olyan módon, hogy M processzáló elem esetén az első M legnagyobb 
sajátértéknek megfelelő sajátvektort és a hozzájuk tartozó vetületeket szolgáltatják. A két eljárás — bár kissé 
eltérő architektúrával rendelkeznek és a tanulási szabályaik sem azonosak — hasonló elveken alapul: mindkettő 
az eredeti OJa szabályt kombinálja a Gram-Schmidt ortogonalizálási eljárással. 


4.3.2.1. A Sanger algoritmus (Generalized Hebbian Algorithm, GHA) 


A Sanger hálózat egy N-bemenetű, M £ N kimenetű lineáris előrecsatolt hálózat, amelynek első kimenete a 
legfontosabb főkomponenst az Oja szabály szerint határozza meg. Az első neuronnak a súlyvektora a 
legnagyobb sajátértékhez tartozó sajátvektor. A további neuronok szintén az OJja szabályt alkalmazzák, azonban 
az eredeti bemenőjeltől eltérő bemenetekre. Az eltérő bemeneteket Gram-Schmidt ortogonalizálással állítjuk 
elő. Az eredeti bemenőjelből kivonjuk a már előállított főókomponenseket és az így kapott jelre alkalmazzuk az 
OJa szabályt. 


Nyilvánvaló, hogy ha a bemenőjelből kivonjuk az első főkomponenst, a módosított bemenőjel legfontosabb 
főkomponense (és a módosított bemenőjelhez rendelt autokorrelációs mátrix első sajátvektora) az eredeti jel 
második legfontosabb főkomponese (az eredeti autokorrelációs mátrix második sajátvektor irányára vetített 
komponens) lesz. A hálózat második neuronja ezért a második legfontosabb sajátvektort és az ebbe az irányba 
eső Jelkomponenst állítja elő. A hálózatot további processzáló elemekkel bővítve és az eljárást tovább folytatva 
az Összes sajátvektor, illetve főókomponens meghatározható. 

) 


Az eljárás bemutatásához vezessük be az alábbi jelölést: legyen X" " az i-edik neuronra kerülő módosított 


. . l . 1 
bemenet. Ez azt jelenti, hogy xx a hálózat eredeti bemenőjele. 


Az Oja szabály szerint az első neuron súlyvektorának tanító összefüggése: 


l A 
awy z elyzt — yi wy ] 


. (10.49) 


Képezzük a módosított bemenetet, vagyis vonjuk ki az eredeti bemenetből a bemenetnek az első sajátvektorra 
eső komponensét: 


JEA ARATÁS LÉK HERB VAS LKERBL E a TRESZÁRRÉN ÉL .1ARB 


és erre alkalmazzuk ismét az OJja szabályt: 


(2) (1) 


2 2 
Awa z Alyax - y2wa J- elvan ERR kata 


(10.51) 


A módosított bemenet előállításánál figyelembe vettük, hogy a súlyvektor normalizált, vagyis Ni l 70 


Hasonlóan tovább folytatva az eljárást és figyelembe véve, hogy a további súlyvektorok hossza 15 egységnyi, az 
i-edik súlyvektor módosító összefüggésére a következőt kapjuk: 
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Aw; - lyazt — y w 


I 
EN íz l SETÉT esszé AY 
i—1 


I 2 
Há viz Va 2NIVJVE dér 
iz] 


d (10.52) 


10.6. ábra - A GHA működési elve 


Vi , VIWI Va V2Wa Va VaWV: 





XX lú X 21—g! 1 VIWI xi t—gi 4 VaWa 


A 10.6 ábra azt mutatja, hogy hogyan számítjuk ki az egymást követő főkomponenseket. A háló összes 
súlyvektorának módosító összefüggését egy közös egyenletbe 15 összefoghatjuk. A fenti algoritmust vektorosan 
felírva kapjuk a Sanger tanulási szabályt, amit általánosított Hebb algoritmusnak (Generalized Hebbian 
Algorithm, GHA ) 15 szoktak nevezni [San891]: 


zal cszbt9] ansa 


ahol W hasonlóan az Oja altér háló összefüggéséhez most ís a háló súlyvektoraiból, mint sorvektorokból 
képezett mátrix. 


A Sanger szabály (10.53) szerinti összefüggése nagyon hasonló az általánosított Oja szabály (10.48) 
összefüggéséhez. A különbség mindössze annyi, hogy a zárójelen belüli kifejezés második tagját képező 
mátrixnak a Sanger szabálynál csak az alsó háromszög mátrixával (LT) dolgozunk. Ez valójában azt fejezi ki, 
hogy Itt egy hierarchikus számítási modellről van szó. 


4.3.3. Az APEX háló 


Az APEX háló szintén a főkomponensek meghatározására alkalmas. Felépítése hasonló az Oja altér háló 
felépítéséhez azzal kiegészítve, hogy Itt a neuronok között egyirányú laterális kapcsolatok 15 vannak. Valójában 
ez a háló 15 az Oja szabály és a Gram-Schmidt eljárás kombinálásával dolgozik, azonban ezt módosított 
architektúrával, oldalirányú kapcsolatok bevezetésével éri el. A hálózat a főókomponenseket egyenként, egymás 
után határozza meg, és oldalirányú kapcsolatok csak a már meghatározott kimenetek és az éppen meghatározás 
alatt álló kimenet között vannak (10.7 ábra). 


A hálózat tanításának összefüggéseit arra az esetre adjuk meg, amikor feltételezzük, hogy az első j-1 
processzáló elem súlyai már beálltak, és most a j-edik neuron tanítása folyik. A hálózat j-edik kimenete: 


y.(k1- w (ejx[k]- ay j-i LE) , (10.54) 


mor Y- (E) [d1(E)ya(k), . jei (of 


kimenet előrecsatoló súlyvektora, 1 pedig az első j-1 kimenetről a j-edik kimenethez csatoló oldalirányú 
kapcsolatok súlyvektora. 


r17 mos . ri r r NY a ü e 
a hálózat első j-1 kimenetéből képezett vektor,  - a j-edik 
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A súlymódosítás összefüggései a j-edik processzáló elem számára az alábbiak: 


4 
ÍGY ; — .X— V7TV - 
ú atz ú juga 


és 


e 4 
Ag; EILZY taj] 1056 


Látható, hogy az előrecsatoló súlyok tanítása az OJa szabállyal, a laterális kapcsolatok tanítása a módosított anti- 
Hebb szabállyal (tulajdonképpen az anti-Oja szabállyal) történik. Bizonyítható [D1a96], hogy konvergencia 
esetén az előrecsatoló súlyvektor a j-edik legnagyobb sajátértékhez tartozó sajátvektorhoz, az oldalirányú 
csatolás súlyvektora pedig 0-hoz tart. Megmutatható az 15 [S5an93], hogy a GHA és az APEX megoldás 
lényegében ekvivalensek. Mindkettő valójában egymás után, egyenként, csökkenő , fontossági" sorrendben 
(csökkenő sajátértékek szerint) határozza meg a sajátvektorokat és a bemeneti jel főókomponenseit. Egyik háló 
sem állítja elő ugyanakkor a megfelelő sajátértékeket, bár ezek a kimeneti értékek átlagos négyzetes értékeivel 
becsülhetők. Ugyancsak közös mindkét hálónál, hogy legpontosabban a legfontosabb sajátvektort határozzák 
meg, az egyre csökkenő fontosságúak hibái — minthogy meghatározásukban szerepet játszanak a rangsorban 
előttük állók — egyre növekednek. 


10.7. ábra - Az APEX háló 
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bemenet 
XI 
kimenet 
X7 VI 
A3 V2 
li " Vi-1 
AN j kő) 





vV o 


Hebb szaballyal,  anti-Hebb szaballye 
tanitott sulyok 


Fontos kérdés még a hálózatok megfelelő működéséhez a ? tanulási tényező megválasztása. Egyrészt magát a 
konvergenciát 1s befolyásolja, hogy milyen tanulási tényezőt választunk, másrészt, ha konvergens 1s az eljárás, a 
konvergenciasebesség is nagymértékben függ /" értékétől. A PCA hálózatok konvergenciájának bizonyítása a 
sztochasztikus approximáció eredményein alapul, ezért itt is bizonyos számú tanító lépésenként csökkenő 
alkalmazása (ld. (2.136) összefüggés) célszerű, bár nagyon sok alkalmazásban konstans 7" felhasználását 
javasolják. Ez utóbbi esetben a konvergenciát úgy biztosíthatjuk, ha megfelelően kicsire választjuk 7? -t. Az 
APEX hálónál az 15 megmutatható, hogy létezik optimális, lépésenként változó tanulási tényező 15, amely 
ráadásul neuronfüggő. A j-edik PE súlyainak tanításához a k-adik lépésben az optimális tanulási faktor: 


l 


B iopt (ke) KGEYE 
ajlX) 1057) 


2 
ahol "5 ( ) a hálózat j-edik kimenetének átlagos négyzetes értéke (vartianciája). Az optimális érték helyett a 
gyakorlatban könnyebben alkalmazható az alábbi összefüggés szerint választott együttható [Kun90]: 
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ú 1 
hag 
AA , (10.58) 
et 
Ezzel a választással a biztonságos, de kissé lassúbb konvergencia irányában módosítjuk /"-t, hiszen  $ aj-edik 


2 
sajátérték, fej becslése 8: k) a] ha koo0), és gek 


A PCA hálózatok egyik legfőbb előnye az egyéb KLT eljárásokhoz képest, hogy a transzformációt nem két, 
hanem egyetlen lépésben végzik. Nincs szükség tehát előbb a bemeneti jel autokorrelációs (autokovariancia) 
mátrixának meghatározására és ennek alapján a sajátvektorok kiszámítására, hanem közvetlenül a bemeneti 
adatokból dolgozhatunk. Ennek ellenére nem állíthatjuk, hogy a neurális módszer a legjobb a KLT 
meghatározására. Számos olyan kérdés merül föl (konvergenciasebesség, pontosság, beleértve a numerikus 
pontosságot 1s), melyek részletes elemzése még nem vagy csak részben történt meg. 


A PCA hálózatok aszimptotikusan a KL transzformációt eredményezik, így az optimális lineáris transzformáció 
megvalósításának eszközei. Számos gyakorlati feladatnál szokás azonban egyéb transzformációkat alkalmazni, 
melyek az optimális transzformációt csak közelítik, de melyek kiszámítása lényegesen egyszerűbb (pl. 
képtömörítésnél a KL transzformáció helyett a diszkrét koszinusz transzformációt (DCT) alkalmazzák [ Wal91 ]). 


Az eddigi adattömörítő hálózatokra jellemző, hogy lineáris egyrétegű felépítéssel rendelkeznek. A 
következőkben röviden bemutatjuk, hogy adattömörítést többrétegű hálózatokkal 1s lehetséges. 


4.4. Lineáris többrétegű perceptron, mint adattomorító hálózat 


Képzeljünk el egy olyan két aktív rétegű perceptront, amely lineáris neuronokból épül fel és autoasszociatív 
módon működik, vagyis adott bemenetre válaszként magát a bemenetet várjuk. Az autoasszociatív hálóknál a 
kívánt kimenet megegyezik a bemenettel. Amennyiben a rejtett rétegbeli neuronok száma (M) kisebb, mint a 
bemenetek (és ennek megfelelően a kimenetek) száma (N), akkor a rejtett rétegbeli neuronok kimenő értékei a 


al. szöbetőt al 


A rejtett réteg képezi a háló "szűk keresztmetszetét". Ha a hálót a szokásos hibavisszaterjesztéses algoritmussal 
tanítjuk, a háló által előállított kimenet (y) átlagos négyzetes értelemben közelíti a háló bemeneti jelét (x). A 
háló kimeneti rétege a rejtett rétegbeli M-dimenziós reprezentációból állítja vissza az N-dimenziós kimenetet, 
tehát a rejtett réteg kimenetén a bemenőjel kisebb dimenziós altérbe vett vetületét kapjuk meg, olyan módon, 
hogy e közelítő ábrázolásból az eredeti jel a legkisebb átlagos négyzetes hibával állítható vissza. Az altér 
lineáris neuronok mellett bizonyítottan [Bal89] a megfelelő KLT alteret jelenti, de az altérben a bázisvektorok 
nem feltétlenül lesznek a sajátvektorok. 


Megmutatható, hogy az autoasszociatív hálózat hibája nem függ attól, hogy a rejtett rétegbeli neuronok lineáris 
vagy nemlineáris kimenettel rendelkeznek. A háló mindkét esetben a bemenetnek a főkomponensek alterébe eső 
vetületét adja. 


Az adattömörítő többrétegű perceptron olyan hálózatra példa, ahol annak ellenére, hogy lineáris processzáló 
elemekkel dolgozunk, a több réteg alkalmazásának értelme van, ugyanis épp a közbenső, kisebb dimenziós 
rejtett réteg szolgáltatja a bemenet tömörített változatát. 


10.8. ábra - Lineáris többrétegű perceptron, mint adattömörítő autoasszociatív háló 


292 
XMLmind XSL-FO Converter 


Nemellenőrzött tanulású hálózatok 


Bemenet: x Rejtett reteg kivant kimenet — bemenet 

5 kimenete: z - 

1 — a f— 
tett szé A 1 





; ls, s. ő á 
Cl. ös ll ea hell a 
3 "eg, is li j ; 


-r EX 


ut Vr 
rejtett reteg kimeneti reteg (tanulasnal ) 


AM neuron N neuron 


(a hálózat igazi kimenete: z) 


5. Nemlineáris PCA és altér hálók 


Az utóbbi időben több olyan eredmény is született, melyek nemlineáris kiterjesztései a PCA illetve az altér 
hálóknak. A nemlineáris hálók működésének elve nagymértékben hasonlít az eddig bemutatott PCA hálókéhoz 
azzal a különbséggel, hogy a nemlineáris hálóknál nem közvetlenül a bemeneti adatokat dolgozzuk fel, hanem 
előbb egy nemlineáris transzformációt alkalmazunk — amely általában dimenziónövelő transzformáció 15 egyben 
—, majd a transzformált adatokra alkalmazzuk a már ismert eljárásokat. A nemlineáris transzformáció miatt Itt 
esetenként a lineáris hálókénál 15 nagyobb mértékű tömörítés, ill. azonos mértékű tömörítés mellett kisebb hiba 
is elérhető. 


A nemlineáris tömörítésre mutat példát a 10.9 ábra. Az ábrán látható adatok esetén nem találunk olyan lineáris 
nyernénk, hogy a közelítés átlagos négyzetes értelemben vett hibája ne lenne jelentős. Nemlineáris 
transzformációt 15 megengedve — tehát ha az ábrán az x:, x. koordinátarendszer helyett az x, és az x-re minden 
pontban merőleges x : koordinátarendszerben adjuk meg az adatokat — látható, hogy az x:; koordináta elhagyása 


S, aa a 


egydimenziós reprezentáció hibája jóval kisebb, mintha az eredeti komponensek bármelyikét hagytuk volna el. 


A főkomponens analízis célja az adattömörítésen kívül más is lehet. Sok esetben nem az adatok dimenzióját 
akarjuk redukálni, hanem a főkomponensek meghatározásával az adatok belső struktúráját szeretnénk 
meghatározni. A 10.9 ábrán bemutatott példa esetében sem feltétlenül az a cél, hogy a kétdimenziós 
reprezentáció helyett egydimenziós közelítő reprezentációt kapjunk. Önmagában annak a felismerése is hasznos 
lehet, hogy az x:-menti és egy erre merőleges komponens az adatok struktúráját Jobban kifejezi, mintha az 
eredeti xi; és x. komponenseket használnánk. A főkomponenseket ezért nemcsak a bemeneti térben, az adatok 
eredeti reprezentációja mellett, hanem valamilyen nemlineáris transzformáció útján kapott jellemzőtérben 15 
érdemes keresni. A nemlineáris transzformáció közbeiktatása miatt az adatok komponensei között 
magasabbrendű korreláció, az adatokban rejtve meglévő valamilyen nemlineáris struktúra felderítése 15 
lehetséges. 
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A nemlineáris főkomponens analízis eljárásoknál ís — hasonlóan a lineáris eljárásokhoz — olyan új 
koordinátarendszert keresünk, melynek egyes koordinátái jelentős mértékben eltérő fontosságúak az adatok 
előállításában. A kétféle eljárás közötti alapvető különbség, hogy Itt a megfelelő transzformáció keresését nem 
korlátozzuk a lineáris transzformációk körére. A jellemzőtérben történő főkomponens analízis elvégzéséhez 
térnél sokszor nagyobb dimenziós — térben kell elvégezni a főókomponensek meghatározását. A módszer 
nehézségét már lineáris eljárásnál is az okozta, hogy a transzformáció bázisa a kunduló jel függvénye. 
Nemlineáris esetben a megfelelő transzformáció megtalálása és hatékony megvalósítása még nehezebb feladat. 


10.9. ábra - Nemlineáris dimenzió redukció 





A következőkben két nemlineáris eljárást mutatunk be. Az első eljárásnál alkalmazott nemlineáris 
transzformáció általában a bemeneti térnél sokkal nagyobb dimenziós jellemzőteret eredményez, azonban a 
jellemzőtérbeli főókomponens analízist nem ebben a térben, hanem az ebből származtatott kernel térben tudjuk 
megoldani. Itt tehát nincs szükség a jellemzőtérbeli transzformáció explicit definiálására és a jellemzőtérbeli 
reprezentáció "meghatározására. A kernel gépeknél bemutatott kernel trükk segítségével ugyanis a 
jellemzőtérbeli főókomponens analízis elvégezhető a kernel térben 15. Az ún. kernel PCA célja az adatokban 
meglévő rejtett (nemlineáris) struktúra meghatározása. A kernel PCA tehát elsődlegesen nem adattömörítésre 
szolgál. 


A második bemutatott megoldás nemlineáris adattömörítést végez, mégpedig többrétegű perceptronnal. A 
megoldás tehát az előzőekben bemutatott perceptron-alapú altér háló nemlineáris megfelelője. 


5.1. Kernel PCA 


A PCA során a bemeneti térben keresünk főkomponenseket úgy, hogy a bemenetek megfelelő lineáris 


célt ABE A 


hanem előbb a bemeneti vektorokat nemlineáris transzformációval egy ún. jellemzőtérbe transzformálja, és Itt 
keres főkomponenseket. 
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Az eljárás bemutatásához a következő jelölésekből induljunk ki. Jelöljük a bemeneti térg"1 a jellemzőtérbe való 
nemlineáris tratiR" ormációt D-vel. A bemeneti tér lehet pl. a valós szám MN-esek tere, , ekkor a nemlineáris 
transzformáció  -ből egy F jellemzőtérbe képez le: 


Az F jellemzőtér tetszőlegesen sokdimenziós, akár végtelen dimenziós tér 1s lehet. Tételezzük fel, hogy az F 


B e 
térben ís fennáll, hogy pa kel PÍxrj- u ahol P a bemeneti vektorok száma. Becsüljük a jellemzőtérbeli 
kovarianciamátrixot a véges számú mintapont (jJellemzőtérbeli vektor) alapján: 


C- 


ij [es 


5olx)ols j 


(10.60) 


A jellemzőtérbeli főókomponensek meghatározásához először most 15 meg kell határoznunk a kovarianciamátrix 
nemnulla sajátértékeit és a megfelelő sajátvektorokat, melyek kielégítik a szokásos sajátvektor-sajátérték 
egyenletet: 


4AV7-CY (10.61) 


majd a jellemzőtérbeli főkomponenseket a B) jellemzőtérbeli vektorok és az egységnyi hosszúságúra 
normált V sajátvektorok skalár szorzataként kapjuk. 


A sajátértékek és a sajátvektorok meghatározásához hasznos, ha felhasználjuk, hogy a £ kovarianciamátrix 
sajátvektorai a jellemzőtérbeli vektorok által kifeszített térben vannak: 


BF 
V - pa ab Íx; ) 
i—] , (10.62) 


tehát léteznek olyan 2 (i—1,...,P) együtthatók, melyek segítségével a sajátvektorok előállíthatók a bemeneteket 
a jellemzőtérben reprezentáló vektorok súlyozott összegeiként. A (10.62) összefüggés felhasználásával azonban 
meg tudjuk mutatni, hogy a jellemzőtérbeli főkomponensek anélkül 15 meghatározhatók, hogy a bemeneti 


Ennek érdekében tekintsük a következő egyenletet: 


T T § 
48 (XIV - B ÍXRICV 421,...,P (10.63) 


Helyettesítsük ebbe az egyenletbe c (10.60) és V (10.62) összefüggését. Ekkor minden k-l,...,P-re a 
következőt kapjuk: 


8" (xy) els) 
(10.64) 


Der 
Kek 
4 


Ess B 
! 
1010" (s) Pls) Se" (xy) 


II 
— 


d 
Vegyük észre, hogy ebben az összefüggésben a jellemzőtérbeli B) 
formájában szerepelnek. 


vektorok mindig csak skalár szorzat 


Definiáljunk egy FF méretű K kernel mátrixot, melynek (i,j)-edik eleme: 
Kp - Klzpxj)- 9" (x;) Pl x, ) (10.65) 
Ezzel a (10.64) összefüggés az alábbi tömör formában 1s felírható: 


PAKu - Ka , (10.66) 
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ahol az E oszlopvektor az § i—1,...,P együtthatókból áll. K szimmetrikus mátrix, és ha megoldjuk a következő 
sajátvektor-sajátérték problémát: 


PAn- Én (10.67) 


ahol az E vektorok K sajátvektorai és a P4 értékek a sajátértékek, a megoldás kielégíti a (10.66) egyenletet 15. 


éjebis bb. szt zá ; ; S Aa Esők fen s 

Jelöljük K nemnulla sajátértékeit nagyság szerint sorbarendezve 4549 5..£ÁAp -vel, a hozzájuk tartozó 
[1 

sajátvektorokat pedig pé a 


Bíxi 


[P 
vel, és legyen A az első (legkisebb) nemnulla sajátérték. (Ha feltételezzük, 


(ral 


hogy nem azonosan 0, akkor mindig léteznie kell egy ilyen A -nek.) Normalizáljuk az MS 
sajátvektorokat, hogy az F térben a következő egyenlőség teljesüljön k-—r, . . .,P-re : 
siesd 


-! (10.68) 


Ez a következő normalizálási feltételt szabja az E sajátvektorokra: 


kal 
1- 5 alValtoT s) ) 
j- 


(10.69) 


A főkomponensek meghatározása után szükségünk van még a jellemzőtérbeli vektorok sajátvektorok szerinti 


vetítésére. Legyen x egy tesztpont, DX) képpel F-ben, ekkor 


F F 
VT a(z) FV ajoT (x) 0(x)- Val k(x.x) 
iz] iz] (10.70) 


A jellemzőtérbeli főókomponens tehát a közvetlenül a kernel értékek függvényében kifejezhető, anélkül, hogy a 


DX) nemlineáris leképezéseket meg kéne határozni. Tehát itt i5 a kernel trükköt alkalmazhatjuk, ha a 


Dix) 


nemlineáris PCA számítását nem a nemlineáris leképezések rögzítésével, hanem a K mátrix (a kernel 


függvény) megválasztásával végezzük. A kernel PCA-nál tehát nem a bíz) nemlineáris leképezésekből, 


hanem a kernel függvényből indulunk ki. A kernel függvény implicit módon definiálja a jellemzőtérbeli 
leképezést. 


Összefoglalva a következő teendőink vannak a főkomponensek meghatározása során. Először meg kell 
választanunk a kernel függvényt, majd meg kell határoznunk a IK mátrixot. Ennek a mátrixnak kell 


ke 
kiszámítanunk az 1 ; sajátvektorait. A sajátvektorok normalizálását követően határozhatjuk meg a bemeneti 
vektorok jellemzőtérbeli főókomponensett a (10.70) összefüggés felhasználásával. 


Az eljárás fő előnye abban rejlik, hogy a BÍx) függvény ismeretére nincs szükségünk, továbbá, hogy míg az 
eredeti PCA során a kovarianciamátrix mérete a bemeneti dimenziótól függ, addig itt a K mátrix méretét a 
tanítópontok száma határozza meg. Lineáris PCA-nál legfeljebb N sajátvektort és így N főkomponenst találunk, 
ahol N a bemeneti vektorok dimenziója. Kernel PCA-nál maximum P nemnulla sajátértéket kaphatunk, ahol P a 
mintapontok száma. 


5.1.1. A nulla várhatóérték biztosítása a jellemzőtérben 
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a jő 


T 
A korábbiakban tényék a (x)zeltük, hogy az F térben igaz a 2ka? IX) pb (xjegállapítás. Ez nyilvánvalóan 


nem lehet igaz minden függvényre, így szükségünk van arra, hogy a jellemzőtérbeli vektorokat is 
0 átlagértéküvé transzformáljuk. Ez megoldható, ha a vektorokból kivonjuk az átlagukat: 


Pp 
z 1 
e alak alt 

ke (10.71) 


Az eddigi megállapítások szerint most ez alapján kell meghatározni a kovartanciamátrixot, illetve a 


—- szg ti -- 
£.7-8" (x.) Ölx;) OZ 


mátrixot az F térben. Az így kapott É mátrix sajátérték-sajátvektor rendszerét kell meghatároznunk: 
At — Kü. (10.73) 
ahol Ü. a sajátvektorok együtthatóit tartalmazza a következő formában: 


az F mez 
1 tt segg 


A E mátrix kiszámítása a definíciós összefüggés szerint azonban nem lehetséges a módosított jellemzőtérbeli 
vektorok ismerete nélkül. Lehetőségünk van viszont arra, hogy a É mátrixot K-val kifejezzük. 


Ki -[07 (xy). elx)) has 


pú űl; jesgzáusájó . (o. (ei, E1/P 
Használjuk a következő jelöléseket: ; minden i, j-re és 4 


. Ezek után 


E számítása: 


e. 1 E si 
£p- (3-5 2 Plxp) bets-s Sot) 7 
571 k-1 
j ját S 
- psz lwéy 52 Eg [dd ta pa ljp £nrlig 
p-l K-I F  pkAl 
-[K-1PK-K1p-t1FKL1p), MÓ 


Ezután számíthatók ki a sajátértékek és a sajátvektorok, a főókomponensek számítása pedig ugyanaz, mint a nem 
központosított adatok esetében. 


5.1.2. Jelvisszaállítás 


Láttuk, hogy a kernel PCA a jellemzőtérben határoz meg főkomponenseket, ezért a főókomponensekből szintén a 
valójában nem 1s dolgozunk a jellemzőtérben, hiszen a jellemzőtérbeli vetületeket 15 meg tudjuk határozni a 
kerneltérbeli reprezentáció segítségével. Ha azt szeretnénk tudni, hogy mi a jellemzőtérbeli közelítő 
reprezentáció hatása a bemeneti térben, akkor a jellemzőtérbeli főókomponensekből vissza kell állítanunk a jelet 
a bemeneti térben. Ez a feladat egyáltalán nem triviális, sőt nem 1s feltétlenül egyértelmű. A jelvisszaállításra 
Sebastian Mika IMIk99] és munkatársai javasoltak közvetett eljárást. E szerint a bemeneti térben keresünk olyan 
vektort, amelynek  jellemzőtérbeli főkomponensei minél inkább hasonlóak a visszaállítandó jel 
főkomponenseihez. 


dő étellel 
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Hi 
Xn b ay 
r-Il , (10.76) 


vagyis a közelítő reprezentáció a jellemzőtérbeli sajátvektorok lineáris kombinációjaként állítható elő. A 


jelvisszaállításhoz olyan bemenetet keresünk, melynek a jellemzőtérbeli képe minél kisebb mértékben tér el X m 
-től. E mögött az a feltevés áll, hogy ha két jel jellemzőtérbeli reprezentációja között az eltérés kicsi, akkor a 
bemeneti térben is kicsi a köztük lévő eltérés. Négyzetes hibakritériumot alkalmazva ez azt jelenti, hogy 
keressük azt az É bemeneti vektort, melyre 


CXI - e (31 Xn [ (10.77) 


minimális. Behelyettesítve (10.77)-be (10.76)-ot és hl (10.62) összefüggését, az eltérésre a következőt kapjuk: 


Hm a k 
CSE Elk keze 85 ad eláxjr a 
kzl 4-1 (10.78) 


ahol 2 függtelen f-től. A (10.78) kritérium minimumát biztosító Z gradiens eljárással megkereshető, ha 
rögzítettük a kernel függvényt. 


10.1 példa 


A kernel PCA működését egy egyszerű példán illusztráljuk [Sch96c]. Egy kétdimenziós adathalmaz 
főkomponenseit keressük, ahol az adatok generálása a következő módon történt: egy mintapont xi; komponense a 
[-1,1] intervallumba egyenletes eloszlású véletlen szám, x. komponensét pedig az alábbi kapcsolat alapján 
2 
gk E 


je A F al r dl [/A r ,r yr ,r je Fal § d r § 
határozhatjuk meg ahol ő egy nulla várható értékű c—0,2 szórású normális eloszlású véletlen zaj. 


Válasszunk a feladat megoldásához polinomiális kernelt: 


KCxpx) ze [xx]? 


A 10.10 ábra különböző g értékekre mutatja a főkomponens analízis eredményét. Balról jobbra az egyes 
oszlopok rendre g-1, 2, 3 és 4 érték melletti polinomiális kernellel született eredményeket mutatnak olyan 


módon, hogy az egyes oszlopokban a három legnagyobb sajátértéknek megfelelő eredmény látható. Az ábrán a 
vonalak a konstans főkomponensek kontúr vonalat. 


A bal szélső oszlop a g-1 esethez tartozik, ami valójában a lineáris PCA. Látható, hogy itt csak két sajátérték 
lesz nullától különböző, ami triviális 15 kétdimenziós bemenetek esetében. Lineáris PCA-nál a sajátvektorok az 
ábra vonalaira merőleges irányúak és nyilvánvalóan egymásra 15 merőlegesek. Az első oszlop ábráiból az 15 
látható, hogy az adott példában a lineáris PCA főkomponensei nem tükrözik az adatok struktúráját. 


10.10. ábra - Egy egyszerű példa a kernel PCA működésének illusztrálására [Sch96c]. 
(dr. Klaus-Robert Müller hozzájárulásával). 
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evalz0 34 evalak 35 evalz0.60 evalz1.14 


j" 3 7 VII - HA NN 7 Sy 





A magasabb fokszámú esetekre a főkomponensek már visszaadnak valamit az adatok struktúrájából. Ez jól 
látszik a három utolsó oszlop legfelső, a legfontosabb jellemzőtérbeli sajátértékekhez tartozó ábráiból. A 
magasabb fokszámú esetekben a jellemzőtér dimenziója nagyobb, mint a bemeneti tér dimenziója, így Itt a 
várakozásnak megfelelően kettőnél több nemnulla sajátérték lehet. A második oszlopban (g-2) a harmadik 
főkomponens — ami a legkisebb sajátértékhez tartozik — az additív Gauss zaj szerepét mutatja. 


Ez utóbbi megfigyelés arra is utal, hogy a kisebb sajátértékekhez tartozó főkomponensek sok esetben az 
adatokat terhelő zajhoz köthetők. Ilyenkor ezeknek a főkomponenseknek az elhagyása elsősorban nem a 
dimenzióredukciót, hanem a zajszűrést, az adatok , zajtalanítását" (denoising) szolgálja. A PCA eljárások mind 
lineáris mind nemlineáris esetben eredményezhetnek zajtalanítást. Ezt illusztrálja a következő példa. 


10.2 példa 


A kernel PCA zajtalanító hatását egy éles feladatra való alkalmazáson mutatjuk be. A feladat kézzel írott 
számjegyek felismeréséhez kapcsolódik [IMIk99]. A kiunduló minták 16x16 pixeles szürkeárnyalatos képek, 
melyeket különböző tulajdonságú additív zaj terhel. A feladatban a kernel PCA alkalmazása azt illusztrálja, 
hogy a kernel térben a legfontosabb főkomponensek meghagyása és a kisebb sajátértékekhez tartozó 
főkomponensek elhagyása alkalmas lehet a képek zajszűrésére. A példa ugyanakkor azt 1s illusztrálja, hogy az 
adott feladatban a lineáris PCA a zajszűrést megfelelő minőségben nem tudja megoldani. 


A 10.11 ábra mind a kiunduló, mind a kétfajta zajjal (nulla várható értékű, s—0,5 szórású Gauss zaj, illetve 
pontszerű zaj, ahol egy pixel 0,2 valószínűséggel változik fekete vagy fehér pixellé) terhelt karakterek képeit 
mutatja (az ábra első két sora), valamint bemutatja a lineáris PCA és a kernel PCA adott számú 
főkomponenséből visszaállított karakterképeket 15. Minthogy az eredeti képek 256 pixelből állnak, lineáris PCA 
esetében maximum 256 főkomponens lehetséges. Kernel PCA mellett azonban a jellemzőtér dimenziója a 
választott kernel függvénytől függően ennél jóval nagyobb 1s lehet, a sajátvektorok számát pedig a mintapontok 
száma határozza meg. A példában Gauss kernel függvényt és 300 tanítómintát használtak. 
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Az ábrából látható, hogy lineáris PCA mellett, ha nem az összes főkomponenst használjuk, az additív Zaj 
mérsékelhető ugyan, de a képek 1s jelentősen torzulnak, ami a későbbi felismerést nehezíti. A kernel PCA-nál a 
többdimenziós jellemzőtér biztosítja, hogy a zajt úgy mérsékeljük, hogy közben a képek minősége alig változik. 


10.11. ábra - A kernel PCA zajtalanító hatása [Mik99]. (dr. Klaus-Robert Müller 
hozzájárulásával) 
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5.2. Nemlineáris többrétegű perceptron, mint adattoómöorítő 
hálózat 


Természetesen adódik a gondolat, hogy használjuk ki a megfelelő neurális hálózatok azon képességét, hogy 
lényegében tetszőleges folytonos nemlineáris leképezés közelítésére megtaníthatók. Ugyancsak fontos 
tulajdonság, hogy a tanítás a kívánt választól való átlagos négyzetes eltérés minimalizálását végzi. Ha tehát 
megfelelő többrétegű nemlineáris leképezésre alkalmas hálót a lineáris adattömörítő MLP-hez hasonlóan 
autoasszociatív módon tanítunk, várható, hogy a háló nemlineáris adattömörítésre képes lesz [Mal96]. 


Nemlineáris adattömörítést úgy valósíthatunk meg, hogy olyan 5 rétegű (4 aktív rétegü) hálót alkalmazunk 
(10.12 ábra), amelynek első és harmadik rejtett rétege nemlineáris — ezt f jelöli az ábrán —, második rejtett rétege 
és kimeneti rétege pedig /(/-lel jelölt lineáris neuronokból épül fel. A hálót most is a szokásos 
hibavisszaterjesztéses eljárással tanítjuk, így a megtanított háló kimenete átlagos négyzetes értelemben a 
legkisebb hibájú közelítése a bemenetnek. Mint utaltunk rá, egy rejtett rétegű hálózat akár lineáris, akár 
nemlineáris rejtett neuronokat tartalmaz csak lineáris adattömörítésre alkalmas. Nemlineáris adattömörítés csak 
legalább három rejtett rétegű hálózattal lehetséges. Bár ez a háló nem tartozik sem a PCA hálócsaládba, sem a 
nemellenőrzött tanítású hálók közé, mégis itt említjük, mivel a háló által megoldott feladat rokon az előbb 
említettekkel. 


A nemlineáris rejtett rétegbeli neuronok számát alapvetően a szükséges leképezés "nemlinearitásának mértéke" 
határozza meg. A középső, lineáris rejtett réteg — amelyben a bemeneti komponensek számánál kevesebb 
neuron található — kimenetén nyerjük a tömörített reprezentációt. A nemlineáris adattömörítő MLP tehát abban 
különbözik a lineáris tömörítést végző, a 10.8 ábrán bemutatott változattól, hogy kiegészül két nemlineáris 
rejtett réteggel, melyek alapvetően felelősek a nemlineáris leképezésért, és a tömörítést, illetve a visszaállítást 
hivatottak biztosítani. Az /-lel jelölt neuronoknál 15 alkalmazhatunk nemlineáris aktivációs függvényeket, bár a 
megfelelő működéshez erre valójában nincs szükség. A bemutatott nemlineáris hálózat — hasonlóan lineáris 
megfelelőjéhez — nem feltétlenül a nemlineáris főókomponenseket, hanem az M nemlineáris főkomponens által 
meghatározott altérbe eső vetületet határozza meg. 
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10.12. ábra - Nemlineáris adattömörítő MLP hálózat 
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6. Független komponens analízis 


A független komponens analízis (independent component analysis, ICA) olyan statisztikai módszer, amely 
adatokban (véletlen változókban, mérési eredményekben vagy akár időfüggvényekben) rejtve meglévő 
komponensek meghatározására szolgál. A független komponens analízis a megfigyelt többváltozós adatok 
generálásának egy modelljét definiálja. E modell szerint a rendelkezésre álló többdimenziós adatok egyes 
komponensei valamilyen ismeretlen változók lineáris vagy nemlineáris , keverékei", súlyozott összegei, ahol a 
keverő rendszer szintén ismeretlen. A független komponens analízis feladata ezen rejtett változók 
meghatározása, feltéve, hogy a rejtett változók statisztikailag függetlenek egymástól. 


A független komponens analízis a főkomponens analízis (PCA) kiterjesztésének is tekinthető, amennyiben a 
megfigyelt adatokban, jelekben itt 15 valamilyen kitüntetett komponenseket keresünk. A független komponens 
analízis számos gyakorlati feladat kapcsán felmerül. Ha például időfüggvények független komponensekre való 
szétválasztása a feladat, szokás vak forrás szeparálásról (blind source separation, BSS) beszélni. Ilyenkor a 
rendelkezésünkre álló megfigyelt időfüggvények valamilyen források időfüggvényeinek súlyozott összegeiként 
állnak elő és a megfigyelésekből az eredeti időfüggvényeket szeretnénk visszaállítani. Bár nem időfüggvényekre 
történő szétbontásról van szó, mégis hasonló feladatról beszélhetünk, ha pl. képek (vagy tetszőleges 
többdimenziós jelek) keveréke áll rendelkezésünkre, melyekből az eredeti képeket (komponenseket) szeretnénk 
visszakapni. 


Egy komplex jel független komponensekre bontása későbbi feldolgozó lépések (pl. felismerési, osztályozási 
feladatok) elvégzést 15 megkönnyítheti. Ilyenkor a független komponens analízis eljárásokat lényegkiemelő 
eljárásoknak (feature extraction) tekinthetjük. További fontos gyakorlati alkalmazás az ún. vak dekonvolúció 
(blind deconvolution). Ebben az esetben általában csak egyetlen megfigyelt és egyetlen forrás jelünk van, 
melyek tipikusan időfüggvények. A megfigyelt jel a forrás jel valamilyen szűrt változata. Lineáris szűrőt 
feltételezve a megfigyelt jel a forrás jel és a szűrő súlyfüggvényének konvolúciójaként nyerhető, tehát a 
megfigyelt jel adott időpillanatbeli értéke a forrás jel régebbi értékeimek súlyozott összegeként áll elő. A 
megfigyelt (szűrt) jelből a forrásjel visszaállítása dekonvolúciós feladat. Amennyiben a szűrő együtthatóit nem 
ismerjük a jelvisszaállítást vakon kell elvégeznünk. Megfelelő feltételek fennállta esetén a vak dekonvolúció 1s 
értelmezhető független komponens analízis feladatként. 


A független komponens. analízis feladatot egy hétköznapi vak forrás szeparálási feladat kapcsán, az ún. 
koktélparti probléma kapcsán fogjuk pontosabban definiálni. A koktélparti probléma során beszédjelek 
keverékéből szeretnénk az egyes beszédjeleket szétválasztani. 


Képzeljük el, hogy egy olyan teremben vagyunk, ahol többen beszélnek egyszerre. Amit hallunk az a sok beszéd 
keveréke. Ebből a beszédkeverékből szeretnénk az egyes különálló beszédjeleket elkülöníteni, hogy megértsük 
az egyes beszélőket. 
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Általánosabban a problémát a következőképpen fogalmazhatjuk meg. sír, sar), sgt ű nulla várható 


értékű, statisztikailag kölcsönösen független jelünk (időfüggvényünk): , ahol t jelöli az 
időt. Ezek a jelek lehetne s; (£) beszéd hullámforma időfüggvények, ahol minden egyes időfüggvé [1], xa (1) 
bes; xr [7 származik. Az jeleket közvetlenül nem tudjuk megfigyelni, hanem helyette egy 
NANTES jelkész jó (z) gyelhetünk meg, pl. L különböző helyen elhelyezett mikrofon felhasználásával. Minden 
egyes megfigyelt jel (mikrofonjel) az egyes beszédjelek súlyozott összegeként áll elő: 

BM 
mh s agár], 1-1 2... E 

de (10.79) 


ahol az azegyütthatók a súlyozó értékek, melyek pl. a beszélők és a mikrofonok közötti távolságok függvényet. 
A kevert mikrofonjelekből szeretnénk az eredeti beszédjeleket visszaállítani, vagy legalább becsülni anélkül, 
hogy az a; együtthatókat ismernénk. 


; § . ; ie ; 
Amennyiben ezen jelek mintavételezett értékeivel dolgozunk, az 2) ( ) j-1, 2, ..., L megfigyelési sorozatokból 


szeretnénk az " Le) i—1, 2, ..., N független jelsorozatokat visszaállítani, ahol k a diszkrét időindex. Ekkor a 
jelmodell vektoros formában 1s felírható: 


N 
xíki- Aslk]ánik]- pa a 5 j (kjrnik) 
Jj-] . (10.80) 


T T 
ahol A a , keverő" mátrix, ag Löfgőaj 9 21 a mátrix j-edik oszlopa., si) Ni Ls1 LE), 52 LE) ssp] 
pedig a keresett független jelforrások jeleiből álló vektor. A (10.80) összefüggéssel megadott feladat annyiban 
általánosabb, mint a (10.79) összefüggés, hogy itt feltételeztük, hogy a megfigyeléseinket még egy n(k) additív 
zaj is terheli. Általában feltételezhető, hogy L 2 N, tehát legalább annyi megfigyelt jelünk van, mint amennyi a 
független komponensek száma. Bár az általános feladatnál az additív zaj jelenlétével ií5 kell számolni, a 
továbbiakban zajmentes esetet tételezünk fel. 


A fenti alkalmazási példák mindegyike mögött ott húzódik a következő alapprobléma. Adottak az 91 $2rrőN 


EA y [A r . Ed Tf a u pó elis. Egé úr Tf r [A E adi jú , ,r . , hd vé y .,.: E all 
valószínűségi változók, melyek az 91792: :"/ valószínűségi változók lineáris  kombinációiként 


modellezhetők: 


Et; § ; i oo "ak söt j f A 
ahol az " együtthatók valamilyen valós értékű konstansok és ahol feltételezzük, hogy az a EV LELET Új 
valószínűségi változók statisztikailag kölcsönösen függetlenek egymástól. A független komponens. analízis 


feladatoknál mindig feltételezzük, hogy mind az eredeti 57 valószínűségi változók, mind az 4 kevert 
(megfigyelt) valószínűségi változók nulla várható értékűek. A független komponensek és a megfigyelések 
közötti kapcsolatot vektorosan felírva: 


X7 ÁS (10.82) 


ahol A a keverési mátrix, 5-5. 52.85 hi a független komponensek vektora és "7 61. 62. XN 1 a 
megfigyelések vektora. Az alapproblémánál tehát feltételezzük, hogy a megfigyeléseink zajmentesek, továbbá 
azt 15, hogy pontosan annyi megfigyelésünk van, mint ahány független komponensünk (L-N). Ez utóbbiból 
következik, hogy A kvadratikus mátrix. A továbbiakban még azt 15 feltételezzük, hogy A invertálható. Ezekkel 


orr , , 0. , , ker -1 , kor 
az egyszerűsítő feltételezésekkel a független komponensek meghatározása valójában § meghatározását 
igényli. Ha ismernénk A-t, kiszámíthatnánk az inverzét, amivel a független komponensek közvetlenül 
meghatározhatók lennének: 


—-] 
5- A "X. (10.83) 
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A probléma legegyszerűbb változatánál a megfigyelések a független komponensekből lineáris transzformáció 
útján származnak és a jelviss a -lítás is egy lineáris transzformáció. A független komponens analízis tehát a 


jelvisszaállító transzformáció mátrixának a meghatározását igénylt. 


A független komponens feladat megoldásánál tehát olyan lineáris transzformációt keresünk, mely minél jobban 


közelíti az A " mátrixot. A nehézséget az okozza, hogy A-t nem ismerjük. Számos valós feladatnál további 
nehézségeket okoz, hogy a fentiekben megfogalmazott egyszerűsítő feltételezések sem érvényesek. 


A fejezetben csak az alapesetre térünk ki, a problémakör általános tárgyalására itt nincs mód. Az általánosabb 
esetekkel, illetve a nagyon speciális esetekkel a bőséges irodalom pl. [Jut88], [Car94], [Com94], [Kar94], 
[Bel95], [Ama95], [G1r96], [Kar97], [Kar98], [Hyv00], [HyvOl], [Hyv06] foglalkozik. 


A fenti feltételeken túl egy további általános feltételnek is eleget kell tenni: a független komponensek nem 
lehetnek Gauss eloszlású valószínűségi változók. Ennek a feltételnek az a magyarázata, hogy a független 
komponens ., analízis eljárások olyan kritériumok alapján dolgoznak, melyek csak nem Gauss eloszlású 
valószínűségi változókra alkalmazhatók. Itt érdemes utalni a főkomponens analízis problémára. Míg a 
főkomponens . analízis egy többdimenziós jelet korrelálatlan komponensekre bontja szét, addig a független 
komponens analízis összetett jelek kölcsönösen független komponenseit próbálja megtalálni, vagy legalább 
olyan komponenseket keres, amelyek a lehető legnagyobb mértékben függetlenek egymástól. A korrelálatlan 
komponensekre bontáshoz a bemenet első és másodrendű statisztikai jellemzőinek felhasználása elegendő, az 
ICA a magasabbrendű statisztikákat 1s felhasználja. 


Gauss eloszlás jellemzésére a magasabbrendű statisztikák alkalmazása nem szükséges, hiszen az első és 
másodrendű statisztikai jellemzők a Gauss valószínűségi változók teljes statisztikai leírását megadják. Továbbá 
egy x Gauss eloszlású valószínűségi vektorváltozóra az 15 igaz, hogy x lineáris transzformációja, (pl. az (10.83) 
jelvisszaállításnak megfelelő transzformációval) szintén Gauss eloszlású lesz, melyet várhatóérték vektorával és 
kovarilancia mátrixával teljes mértékben tudunk jellemezni. Ennek következménye, hogy a standard független 
komponens analízis eljárások képtelenek a keverő, illetve a visszaállító mátrixot identifikálni. Ugyanakkor meg 
kell jegyezni, hogy ha a független komponensek között csak egyetlen Gauss eloszlású található, a feladat 
megoldható. Azt 15 mondhatjuk, hogy a független komponens analízis feladat úgy 15 megfogalmazható, hogy az 
legkevésbé Gauss eloszlásúak. A független komponens analízis eljárásoknál ezért a statisztikai függetlenség és a 
, nemgauss-ság" felcserélhető fogalmak. 


A fentiek indokolják a független komponens analízis eljárások formális megfogalmazásait. Olyan eljárásokat 
keresünk, melyek eredményeképpen kapott komponensek kielégítik a statisztikai függetlenség valamelyik 


előt velők 


Mindkét megközelítés alapján számos eljárást dolgoztak ki. A statisztikai függetlenség mérésére a függetlenség 
definíciójából indulhatunk ki. A statisztikai függetlenség a valószínűség sűrűségfüggvények vagy 
eloszlásfüggvények segítségével definiálható. Legyen pl. yi: és y. két skalár értékű valószínűségi változó és 


jelölje pl) illetve F 192) a megfelelő valószínűség sűrűségfüggvényeket. A két valószínűségi változó 
független, ha a PÍVLY2) együttes valószínűségi sűrűségfüggvényük a két sűrűségfüggvény szorzataként 
felírható: 

play21- pia plya) (10.84) 


Ennek felhasználásával könnyen belátható, hogy független valószínűségi változókra fennáll a következő 
összefüggés IS: 


simli molyt zla loni zlim[ya] (10.85) 


ahol ?1 és 2 tetszőleges abszolút integrálható függvény lehet. 


A függetlenség megállapítása a fentieken túl a valószínűségi változók statisztikai jellemzőinek (pl. 
momentumainak), illetve számos az információelmélet alapján származtatott mennyiségnek az alapján 1s 
lehetséges [HyvOl]. Ilyen mennyiségek pl. az entrópia és a kölcsönös információ vagy a Kullback-Leibler 
divergencia. A nemgauss-ságon alapuló eljárások egyrészt a magasabbrendű momentumokat, elsősorban a 
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kurtózist alkalmazzák, de a nemgauss-ság mérésére 15 használhatók egyes információelméleti fogalmak, mint pl. 
a negentrópia. A különböző függetlenség vagy nemgauss-ság mértékek eltérő eljárásokat eredményeznek. Ezen 
eljárások közül itt csak néhányat mutatunk be. Olyan eljárásokat, melyek neuronháló architektúrával, 
mintapontokból való iteratív tanulással oldják meg a független komponens analízis feladatot. 


A következőkben előbb egy magasabbrendű momentumokon alapuló eljárást, majd az egyik legsikeresebb 
független komponens meghatározó algoritmust, az ún. FastICA eljárást mutatjuk be. Végül olyan megoldásra 1s 
mutatunk példát, ahol a neurális PCA hálózatok nemlineáris változatával becsülhetők a független komponensek. 
A bemutatott eljárásoknál mindig feltételezzük, hogy mind a kiinduló adatok, mind az eredményként kapott 
adatok nulla várható értékűek. 


6.1. Független komponens analízis nemgauss-ság alapján 


Annak eldöntése, hogy egy valószínűségi változó Gauss eloszlású-e vagy sem bizonyos magasabbrendű 
momentumok segítségével is lehetséges. Ilyen magasabbrendű momentum a kurtózis, melyet nulla várható 
értékű valószínűségi változó esetére a következőképpen definiálhatunk: 


ep) s -sreb 


z 
. (10.86) 


Gauss valószínűségi változóknál a kurtózis nulla, míg olyan eloszlásoknál, melyek a nulla körül csúcsosodnak, 
de elnyúló farokrésszel rendelkeznek pozitív, lapos sűrűségfüggvény estében pedig negatív a kurtózis. A 
nemgauss-ság mérésére ezért a kurtózis abszolút értéke vagy négyzete használható. A pozitív kurtózisú 
eloszlásokat szuper-Gauss, a negatív kurtózisúakat pedig szub-Gauss eloszlásoknak nevezzük. A Laplace 
eloszlás (kétoldalú exponenciális eloszlás) jó példa a szuper-Gauss eloszlásra, egy egyenletes eloszlású 
valószínűségi változó pedig szub-Gauss változó. Sok gyakorlati feladatnál a jelforrások szub-Gauss vagy 
szuper-Gauss jelet szolgáltatnak. A beszédjelek pl. tipikusan szuper-Gauss jelek. 


A kurtózis alkalmazásának a független komponensek meghatározásánál a legfőbb előnye, hogy könnyű 
becsülni. Ha ugyanis a véletlen változó varianciáját egyégnyire tudjuk választani, a kurtózis meghatározása 
lényegében csak a negyedik momentum számítását igényli. Hátrányos ugyanakkor, hogy a kurtózis nagyon 
érzékeny a kilógó adatokra, ami viszonylag kevés mintapont alapján történő becslésnél jelentős hibát 
eredményezhet. A kurtózis nem robusztus mértéke a nemgauss-ságnak. 


A független komponenseket megadó szeparáló mátrix meghatározása könnyebb, ha előzetesen elvégezzük az 
adatok ún. fehérítését. A fehérítés a megfigyelések olyan lineáris transzformációja, amelynél a transzformált 
(fehérített) adatok komponensei kölcsönösen korrelálatlanok és vartianciájuk egységnyit. 


Ha a fehérített jel Y— VX ahol V a fehérítő transzformáció mátrixa, akkor v autokorrelációs mátrixa 


Efvv 71 


egységmátrix lesz: . A fehérített jel és az eredeti független komponensek közötti kapcsolat ennek 


megfelelőn: 


v- Vx- VÁsz Bs (10.87) 


Ha feltesszük, hogy a független komponensek varilanciája egységnyi, fehérített jel esetén a B keverő mátrix 
ortogonális lesz: BB"-I. 


A fehérített megfigyelésekből kell a visszaállítást elvégeznünk: 
-1 Tr 
5- E v-B Yv (10.88) 
Így egy teljes rangú, de tetszőleges mátrix meghatározása helyett egy egyszerűbb feladatot, egy ortogonális 


mátrix meghatározását kell megoldanunk. Ha B i-edik oszlopvektorát b; jelöli, akkor az i-edik független 


ejő; 
komponens a fehérített megfigyelésekből 5: B: V formában határozható meg. 


Minthogy a fehérítés következtében v komponensei korrelálatlanok és egységnyi varianciájúak lesznek, a 
fehérítés PCA felhasználásával 15 végezhető. A PCA azonban csak a korrelálatlanságot biztosítja, az egységnyi 
varlanciát nem. A PCA eredményeképpen kapott Jel autokorrelációs mátrixa ugyan diagonális lesz, de általában 
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nem egységmátrix, ezért még egy normalizáló lépésre 15 szükség van. A fehérítő transzformáció mátrixa tehát: 
V-A "0, ahol a fehérítendő jel (x) autokorrelációs mátrixának (R) sajátvektoraiból képzett mátrix, A pedig 
R sajátértékeiből álló diagonálmátrix. 


A továbbiakban feltételezzük, hogy a független komponens analízis fehérített adatokból dolgozik. Egy független 


komponens meghatározásánál ezeknek az adatoknak olyan W " lineáris kombinációját keressük, hogy a 
kurtózis maximális vagy minimális értéket vegyen fel. Természetesen a szélsőérték-keresés csak akkor 
alkalmazható, ha a súlyvektor hossza konstans, ezért feltesszük, hogy rtl si . 

A kurtózis maximalizálás (minimalizálás) többféle úton is elérhető, most azonban csak olyan algoritmussal 
foglalkozunk, ahol a szélsőérték-keresés pillanatnyi gradiens felhasználásával történik. Ekkor olyan iteratív 
megoldást kapunk, mely megfelelő neurális háló architektúrával megvalósítható. A neurális megoldásnál 
valójában egy elemi neuront használunk melynek súlyvektora lesz a keresett w. 


A fehérített adatok miatt a kritériumfüggvény, melynek a szélsőértékét keressük a következő lesz: 
Tr ral u r ly mA 4 
CÍwjz kurt [/w v]- 54 [v v] 1 5. [w v] ) — 54 [v v] ater 
. (10.89) 


Ha figyelembe vesszük még a fv ü feltételt, a végleges kritérriumfüggvényre a következőt kapjuk: 
gy 


4 
C(w)- 2f [v7v) öLLASA LL TRNAN 


ahol F egy büntető tag a súlyvektor hosszára vonatkozó feltétel biztosítására. A büntető tag megválasztására 
különböző javaslatok születtek. Az eljárás mostani bemutatásánál F konkrét megválasztásával nem 
foglalkozunk. Meghatározva a kritériumfüggvény pillanatnyi gradiensét — vagyis a kritériumfüggvényből a 
várhatóérték-képzést elhagyjuk — a súlymódosításra a következő összefüggést kapjuk: 


ml) ml] el [e [eto et) ae PetdzlrenP ed] so 


ahol v(k) az éppen felhasznált fehérített megfigyelés, u(k) a lépésfüggő tanulási tényező, f pedig a büntető tagból 
származó komponens, F/2 deriváltja. A büntető tagból származó gradiens komponensnél feltételeztük, hogy 


rve] ; 

r wvlj . Tr yr r § Fr Fr F r r , yr E" 
valóban csak ! függvénye, és így a gradiense skalár x w formában írható. A módosító tag előjele 
maximumkeresésnél pozitív, minrmumkeresésénél negatív. 


Az eljárás konvergenciája a sztochasztikus approximáció alapján bizonyítható [Hyv97]. Bár az iteratív eljárás 
konvergenciája nem gyors, a pontonkénti tanítás biztosítja a hasonló egyéb pillanatnyi gradiens alapú tanuló 
eljárásoknál 15 meglévő tulajdonságot, a változó környezethez való folyamatos adaptálódás képességét. A 
konvergenciasebességet — ugyancsak hasonlóan az egyéb pillanatnyi gardiens felhasználásával dolgozó 
eljáráshoz — u(k) megválasztása jelentősen befolyásolja. 


A konvergenciasebesség drasztikusan növelhető, ha fix-pont iterációt alkalmazunk. A fix-pont iterációk 
származtatásához abból indulunk ki, hogy egy gradiens eljárás stabil pontja csak olyan pont lehet, ahol a 
gradiens az aktuális súlyvektor irányába mutat, vagyis a gradiens a súlyvektor skalár konstansszorosával 
egyenlő. Csak ilyen esetben lehetséges, hogy egy gradiens irányú módosító vektort adunk a súlyvektorhoz és 
annak az iránya mégsem változik [Aga01], [Hea02], [Gra03]. 


6.2. FastICA: egy kurtózis alapú fix-pont ICA algoritmus 


A (10.91) súlymódosító összefüggés fix pontjait megkapjuk, ha a súlyváltozás várható értékét vesszük és ezt 
nullává tesszük. Ha ugyanis az algoritmus konvergens, akkor kialakul egy egyensúlyi állapot, amikor a 
súlymódosítások várható értéke nulla. A diszkrét időindexet elhagyva a súlymódosítás várható értéke: 
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EI Alwj- pfv[wvjő ü lelé sv file v- 1 (10.92) 


Az ilyen egyenletek megoldására számos determinisztikus iteratív eljárás létezik. Nagyon gyors iterációt 
kapunk, ha az (10.92) összefüggést a következő formában írjuk fel: 


3 
gy — skalár x E 1" [wv] E a kv v 
. (10.93) 


Most csak w iránya érdekes számunkra, a vektor normája lényegtelen. Ezért az összefüggésben szereplő skalár 
konstans hatása egy explicit normalizálással kiváltható. 


Az alábbiakban az algoritmus fő lépéseit mutatjuk be, előbb egyetlen, majd több független komponens 
meghatározására. 


Tételezzük fel, hogy a megfigyelhető mintapontok független komponensek lineáris kombinációiként jöttek létre 
és a mintapontokon a fehérítést elvégeztük. Ekkor egy független komponens az alábbi lépések alkalmazásával 
határozható meg: 

1. Válasszunk véletlenszerűen egy w(0) kezdeti súlyvektort és legyen a diszkrét lépésindex k-1. 

2. Legyen 


lk) zfe[re(r-af vel) 


ahol a várhatóértéket kellően nagyszámú (pl. 1000) v mintapont alapján becsüljük. 


3. Normalizáljuk w(k)-t úgy, hogy osszuk el w(Xk)-t a normájával. 


wik) 





wilk —1 
4. Ha 
lépéshez. 


közel 1, w(X)-t tekintsük eredménynek, egyébként legyen k-ki-1 és menjünk vissza a 2. 


A kapott w(k) vektor az ortogonális keverő mátrix egyik oszlopvektora lesz. Ez azt jelenti, hogy wir) lő 
megadja az egyik független komponens becslését. Az eljárás igen kedvező tulajdonsága, hogy kevés (tipikusan 
5-10) iterációs lépés elegendő, hogy a mintapontok által biztosított maximális pontosságú becslést kapjunk. 


A fenti algoritmus egyetlen független komponens meghatározására alkalmas. A független komponens analízis 
feladatoknál azonban legtöbbször az összes vagy legalábbis több független komponens meghatározására van 
szükség. Több független komponens meghatározása az előbbi algoritmus segítségével úgy lehetséges, ha az 
algoritmust egymás után többször lefuttatjuk. A többszöri lefuttatatásnál azonban biztosítani kell, hogy ne 
ugyanazt a független komponenst határozzuk meg többször. Ehhez egy ortogonalizáló vetítést kell beiktatnunk 
az algoritmus lépései közé. Itt emlékeztetni szeretnénk arra, hogy a fehérítés következtében a keverő mátrix 
ortogonális. Ezért a független komponenseket egyenként becsülhetjük, ha az aktuális w(k) megoldást egy olyan 
térre vetítjük, amely ortogonális a B keverőmátrix eddig megtalált oszlopvektoraira. 


Legyen B az eddig megtalált oszlopvektorokból felépített mátrix. A fenti algoritmusban a 3. lépést cseréljük ki 
a következőre: 


zal 
3. Legyen wlr)- wir BB wik) , majd normalizáljuk w(X)-t. 


Ezen a módosításon kívül egy hasonló vetítésre szükség van a kezdeti súlyvektor felvételénél 1s. 


Hogy elkerüljük az előző vektorok (tehát B) becslési hibájának hatását a későbbi vektorok becslésénél, a fenti 


őőt AE d 
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a keverőmátrix egy oszlopát, akkor már egy fix pont vonzáskörzetében vagyunk, ahonnan a megfelelő pontba 
történő konvergencia már biztosított. 


Az algoritmus bizonyítottan konvergens, sőt a konvergenciasebességre is lehet állítást megfogalmazni. A 
részletek [Hyv97]-ben és [HyvOl ]-ben megtalálhatók. 


Megjegyezzük, hogy a bemutatott gyors ICA eljárás csak egy a hasonló fix pont algoritmusok közül. Hasonló 
eredményeket a nemgauss-ság más megfogalmazása alapján 15 származtathatunk. Így pl. a negentrópia alapján 15 
származtatható FastICA algoritmus, melynek részletes bemutatása [HyvOl ]-ben található. 


6.3. Független komponens analízis nemlineáris PCA 
alkalmazásával 


Az eddigiek alapján látható, hogy a független komponensekre bontás a (fehérített) megfigyelések lineáris 


lit élet d 


igényel. Ez veti fel azt a gondolatot, hogy érdemes a PCA algoritmus nemlineáris változatával próbálkoznt. 


A (10.88) összefüggés szerint egy olyan B mátrixot keresünk, amely a fehérített megfigyelésekből visszaállítja 
az eredeti független komponenseket. Konstruáljunk ezért egy olyan egyrétegű neurális hálót, melynek 
súlyvektorait a PCA hálózatoknál alkalmazott Oja altér szabály nemlineáris változatával tanítjuk. A 
súlymódosító összefüggésünk ennek megfelelően legyen a következő: 


W(k-1]- WÍRJ4 4 (kj v(kj- WI] ely(k)) gly" (x)) (10.94) 


Itt W a többkimenetű háló összes súlyvektorából, mint sorvektorból felépített súlymátrix, v a fehérített 
megfigyelésvektor, y a háló kimeneti vektora, g(y) pedig egy olyan vektort jelöl, melynek i-edik komponense 
29), ahol e(.) egy megfelelő nemlineáris függvény. Megmutatható, hogy a (10.94) összefüggés egy olyan 
AM E 

sztochasztikus gradiens algoritmus, amely a Ha 5] Bar ) kritérium szélső értékét keresi, azzal a feltétellel, 
hogy W ortonormált (M a kimenetek száma). Ha f(1-—r/4, a kritérium a negyedik momentumok összegét jelenti, 
és minthogy a sztochasztikus gradiens eljárás miatt ge(t) az fit) függvény deriváltja, g(1)-t. A nemlineáris 
függvény ilyen megválasztása mellett (10.94) valóban a negyedik momentumok összegének szélsőértékét 
biztosító, ortonormált W-t eredményezne, de az algoritmus nem stabil. Stabil algoritmust nyerünk, ha pl. a 
2(D-tanh(2) függvényt választjuk, amelynek Taylor-soros közelítésében a f tag domináns lehet. 


Ely pz] 


Fehérített jelek és ortogonális szeparáló mátrix mellett igaz, hogy , ezért, ha a negyedik 


Md 4 
momentumok Suszügési 719 -t minimalizáljuk a szub-Gauss jelekre, ill. maximalizáljuk a szuper-Gauss 


jelekre, akkor a 


c Ylebr-szből 
iA] (10.95) 


kritériumfüggvény maximumát biztosító megoldást kapunk, vagyis most 15 a kurtózis alapján dolgozó 
algoritmust nyertünk. 


A nemlineáris PCA háló tehát egy OJja altér hálóhoz hasonló felépítésű azzal az eltéréssel, hogy nemlineáris 
neuronokból épül fel, ahol a nemlinearitást célszerűen a szokásos tangens hiperbolikusz függvényre kell 
választani. A háló azonban csak a tanulási fázisban működik nemlineáris hálóként, hiszen a független 


bill MRSE ál 


azonban nemlineáris művelet, ezért a tanulási fázisban szükség van a nemlineáris neuronokra. 


A nemlineáris PCA hálózatoknak 1s több változatát dolgozták ki. Ezek között említést érdemel az ún. bigradiens 
algoritmus, mely egyszerűsítést jelent az OJa nemlineáris PCA szabályhoz képest. A bigradiens algoritmus 
súlymódosító összefüggése a következő [ Wan96bl]: 
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W(k1)- w(k)r e(ejelw (jel v(xy halt w(x)w(x) Jw(r) (10.96) 


ahol £ egy konstans együttható, melynek értékét a [0,5, 1] aintervallumból kell választani, a g 
függvénykapcsolat pedig azt jelöli hogy egy g függvényt a Wv vektor komponenseire külön-külön 
alkalmazzuk. 


. ; ; WIK K 
A bigradiens algoritmus előnye, hogy a (10.94) összefüggésben szereplő ( jely )) számítását nem 
igényli. 


A nemlineáris PCA algoríitmuson alapuló megoldás, mint kétlépéses szeparáló algoritmus neurális 
architektúrával 15 megvalósítható. A háló két rétegből áll (10.13 ábra). Az első, lineáris réteg a fehérítést végzi, 
ennek a rétegnek a súlyait a 


V(ka1)- V(z- ele [kjelejele vk) IV) (10.97) 


összefüggés szerinti tanítással határozhatjuk meg [Plu93], ahol x a tényleges bemeneti adat. A második réteg, 
melynek súlyait a (10.94) vagy a (10.97) összefüggés szerinti nemlineáris Hebb szabállyal tanítjuk, a fehérített v 
vektorokon dolgozik. 


A független komponens analízis működését két példán illusztráljuk. Az első példa (10.14 ábra) három 
időfüggvény lineárisan súlyozott keverékeiből indul ki. Az ábrán a három kiinduló időfüggvényt, ezen 


időfüggvények keverékeit, valamint a három visszaállított jelet láthatjuk. A 10.15 ábra kétdimenziós jelek 
(képek) független komponenseinek meghatározására mutat példát. 


10.13. ábra - Független komponens analízis hálózat 


X y 


e gall 





bemeneti tehéritett visszaállított 


komplex jel komplex jel gel 


Mindkét példa Jól illusztrálja a független komponens analízis eljárások két , hiányosságát". Egyrészt nem tudjuk 
megmondani, hogy az eljárások milyen sorrendben állítják elő a független komponenseket. Másrészt az 
eredmények csak egy skalár szorzótényezőtől eltekintve lesznek egyértelműek. A független komponensként egy 
eredeti Jel valamilyen skalárszorosát kaphatjuk. Ha rögzítjük a jelek varianciáját például egységnyire, még akkor 
is visszakaphatjuk az egyes eredeti komponensek (-1)-szeresét. Ezt figyelhetjük meg a 10.14 ábrán a második 
időfüggvénynél, valamint a képvisszaállításnál a fatörzs esetében, ahol az eredeti kép helyett annak negatívját 
kaptuk eredményül. 
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10.14. ábra - A független komponens analízis alkalmazása időfüggvényekre 
(beszédjelekre) 


a három eredeti jel 





o . 5O0 4000 1500 2000 23500 3000 3500 





e 500 1000 1500 20000 250 0 isi ale 





"a 500 1000 1500 2000 2500 3500 





Öö S00 1000 4 2000 2500 3500 
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a visszaállított jelek 





na 500 16000 1500 20000 2.500 3000 35300 





a ao 1000 1500 2000 zadn 300 ez ela, 





a) 500 1000 1500 2000 "2500 3000 3500 


A független komponens analízis feladat megoldására a fentiekben röviden bemutatott eljárásokon túl számos 
egyéb javaslat született. Ezek az eljárások általában a feladat más megfogalmazásából származtathatók. További 
olyan változatokat 15 kidolgoztak, melyek az itt bemutatott alapfeladaton túl általánosabb eseteket próbálnak 
megoldani. Ilyen eset lehet, ha a megfigyeléseinket zaj terheli, továbbá, ha a keverőmátrix nem konstans. A 
független komponens analízis eljárásoknak kidolgozták olyan változatait 15, melyek valamilyen mértékben 
kezelni tudják azon eseteket 15, amikor kevesebb megfigyelésünk van, mint ahány független komponens 
szeretnénk meghatározni. 


10.15. ábra - Független komponens analízis alkalmazása képekre 


fatörzs járdafelület füfelület 
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1-es visszaállított kép  2-es visszaállított kép  3-as visszaállított kép 


/ És e d ég 
ott 4 éa KEZD Se 


CA hd ma ül é 
v hal . 1 he 
i X fv 2 XS vag sseeéágnet 


b va 
év e áta € Re 
huj 





Feladatok 


10.1 Mutassa meg, hogy a Kohonen hálónál alkalmazott tanítási összefüggés (10.5 egyenlet) a normalizált Hebb 
szabály. 


10.2 A [0,5 3,5] x [0,5 3,5] tartományon egyenletes eloszlású, kétdimenziós adathalmaz feldolgozására 
topologikus leképezést biztosító Kohonen hálót alkalmazunk. A háló — kétdimenziós rácsban elhelyezve — 9 
neuront tartalmaz az [i, j] pozíciókban, ahol i,j—-0,1,2. Milyen súlyvektorok kialakulása várható a háló tanítása 
után? 


10.3 Milyen súlyvektorokat kapunk a tanítás végén, ha az előző feladat adathalmazát egy 9 neuront lineáris 
elrendezésben tartalmazó Kohonen hálónak tanítjuk. A neuronok pozíciót: 1, 2, 3), . . . , 9. 


10.4 Mutassa meg, hogy az Oja szabállyal tanított háló súlyvektora egyensúlyi helyzetben a bemenet 
autokovariancia mátrixának sajátvektora. 


10.5 A GHA (Sanger) háló csak előrecsatoló összeköttetéseket használ. Ezzel szemben az APEX algoritmus 
mind előrecsatoló, mind oldalirányú kapcsolatokkal rendelkezik. Mutassa meg, hogy a két eltérő hálózat- 
architektúra a megfelelő tanulási algoritmussal azonos súlyvektorokhoz (w;) konvergál. 


10.6 Miért van szükség minimum 5 rétegű hálózatra, ha nemlineáris adattömörítést szeretnénk végezni? 


10.7 Kernel PCA esetére, Gauss kernel mellett határozza meg a jellemzőtérbeli tömörített reprezentáció 
bemeneti térbeli közelítő megfelelőjét. Adja meg a gradtiens eljárással dolgozó jelvisszaállítás algoritmusát. 


10.8 Mutassa meg, hogy két független komponens súlyozott összegeiből kapott kevert adatokból kundulva a 
kurtózis maximalizálása útján valóban megkapjuk a független komponenseket, ha  szuper-Gauss 
komponensekből indulunk ki és kikötjük, hogy az eljárás eredményeképpen kapott adatok varianciája legyen 
egységnyi. A feladatot, mint feltételes szélsőérték-kereső problémát oldja meg. 


10.9 Adja meg, hogy milyen feltételek mellett tekinthető a nemgauss-ság és a függetlenség ekvivalens 
fogalmaknak. 
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11. fejezet - Analitikus tanítású 
hálózatok 


1. A Hopfield hálózat 


A Hopfield hálózat a legegyszerűbb neurális hálózat, amely asszociatív memóriát valósít meg. Az egyrétegű 
visszacsatolt struktúrát John Hopfield amerikai biológus publikálta először [Hop82]. A hálózatot leggyakrabban 
autoasszociatív feladatok megoldására használjuk. Ilyenkor a memóriában mintákat, gyakran digitalizált képeket 
tárolunk [Egm02]. A neurális hálózattól azt várjuk, hogy a tárolt információ zajos, torzított, esetleg hiányos 
változatának megmutatásakor az eredeti mintára asszociáljon. 


A Hopfield hálózat legegyszerübb megvalósítását mutatja a 11.1 ábra. Az egyrétegű modellben a neuronok 
kimenetei minden neuron bemenetére súlyozott összeköttetéseken keresztül vannak visszacsatolva. A hálózat 
bemenetének a neuronok kezdeti állapotai tekinthetők, míg a kimenetet ugyanezen neuronok állapotai jelentik a 
működés során. 


Az alapmodell esetében a Hopfield hálózat neuronjai kétértékűek. Az egyszerűbb matematikai leírás kedvéért a 
továbbiakban az aktív egységek értéke x—11, míg az inaktívaké x——1 legyen. (A bemutatásra kerülő 
igazolásokban az x,—2u—1 konverziót használva vissza lehet kapni a jobban megszokott, az itt használttal 
teljesen egyenértékű 0-1 bináris kódolást.) Ezek alapján a hálózat dinamikáját a következőképpen írhatjuk fel: 


xx seg 2. Vigo — a; 
d , (11.1) 


ahol 
( j --1 ha xzű 
a x ] 


(A következőkben bemutatásra kerülő, véletlen mintákat feltételező vizsgálatoknál a 9 küszöbérték használata 
nem szükséges, így 9—0-t feltételezve elhagyjuk.) 


A hálózat neuronjainak egy adott állapotát egy konfigurációnak nevezzük, az összes lehetséges állapotot, pedig 
konfigurációs térnek. Ebben a térben a stabil állapotokhoz tartozó pontokat vonzási pontoknak nevezzük. A 
megfelelően beállított súlyokkal rendelkező hálózattól azt várjuk, hogy az adott kezdeti konfigurációból 
kundulva az ehhez legközelebbi vonzási pontba stabilizálódik. Az egy-egy vonzási ponthoz tartozó vonzási 
körzet sematikus rajzát mutatja a 11.2 ábra. 


A hálózat működtetésének (akár hardver megvalósításról, akár szoftver szimulációról van szó) alapvetően 
kétféle módja van: szinkron vagy aszinkron ütemezés. 


Szinkron rendszer esetén az összes neuront minden időlépésnél egyszerre módosítjuk. Aszinkron működésnél 
viszont egy pillanatban csak egy egység válthat értéket. Ide szokták sorolni azt az esetet 15, amikor az egységek 
egymástól függetlenül, véletlenszerűen választják meg állapotuk módosításának időpontját, mivel ilyenkor 
elhanyagolhatóan kicsi annak a valószínűsége, hogy egyszerre több neuron 1s értéket váltson. Mind a biológiai, 
mind a mesterséges neurális hálózatok esetében természetesebb az aszinkron működés feltételezése, így a 
továbbiakban mi 1s ezt vizsgáljuk. (Meg kell jegyezni, hogy az aszinkron és szinkron rendszerek dinamikus 
tulajdonságai különböznek. Az első esetben a hálózat szomszédos konfigurációkon keresztül jut el a vonzási 
pontba, míg az utóbbi módszert használva a rendszer bármely állapotváltozás során a konfigurációs tér bármely 
pontjába kerülhet.) 


11.1. ábra - A Hopfield háló 
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A hálózatot egy adott kiindulási konfigurációból addig működtetjük, amíg stabil állapotba nem kerül. A 
rendszer válaszának a stabil állapothoz tartozó konfigurációt tekintjük. 


1.1. Minták tárolása 
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A hálózat tanítása, a megjegyzendő minták tárolása, Itt 15 a súlyok megfelelő beállításával történik. Az elsőként 
bemutatásra kerülő módszernél, a tanítás a módosított Hebb szabállyal történik, amit itt felügyelt tanítási 
eljárásként alkalmazunk, mivel a bemeneti minták egyben a kívánt kimenetek 15. A tanítás során minden egyes 
tárolandó mintát egyszer adunk a hálózat bemenetére és ennek alapján határozzuk meg a súlyokat. Az eljárás 
során, az eddig bemutatott iteratív módszerektől eltérően, minden mintát csak egyszer használunk fel a súlyok 
meghatározásakor. A Hebb-szabály alapgondolatát a 11. fejezet már ismertette. Itt most azt fogjuk bemutatni, 
hogy hogyan valósítható meg a tanulás a Hopfield hálózatokon ezzel az algoritmussal. 


1.1.1. Egy minta tárolása 


Az egyszerűség kedvéért nézzük meg először, hogy hogyan képes a hálózat egyetlen mintát megjegyezni. A 
tanulás eredményeképpen a megtanulandó mintákhoz tartozó konfigurációnak stabilnak kell lennie és minél 
nagyobb vonzási körzetnek kell hozzá tartoznia. Egy minta stabil, ha "? -re (legyen a vektor a tanítandó minta): 


sgnl Mt 3) — e; 
d , (11.3) 


mivel ekkor a dinamikus szabály nem okozza a neuron értékének váltását. Válasszuk a súlyokat a 
következőképpen: 


egz eiéj (114) 


Könnyen belátható, hogy a tanított minta így stabil, hiszen af—1. Később bemutatásra kerülő szempontok miatt 
az arányossági tényezőt válasszuk I/N-re, ahol N a neuronok száma: 


Vis — — éjet ; 
E E 


Az így meghatározott súlyokkal a hálózatban a minta nemcsak stabil, de jelentős vonzási körzete van, pontosan 
a konfigurációs tér fele. Egy neuron akkor vált a kívánt értékre, ha a bemenetén keletkező összeg s; előjele 
megegyezik a minta megfelelő bitjének előjelével: 


Sp — 3, Miep — 2 age — pg] 
d d ) (11.6) 
Tehát az előbb említett feltétel akkor teljesül, ha a felismerendő minta bitjeinek több mint a fele helyes, azaz a 


tanítottéval megegyező. Az 1s látható, hogy ennek a hálózatnak két stabil állapota van: a tárolt minta és annak 
inverze (11.3 ábra ). 


11.3. ábra - A konfigurációs tér egy minta tárolása után 
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1.1.2. Több minta tárolása 


Természetesen a hálózat gyakorlati alkalmazás szempontjából csak akkor lehet érdekes, ha számos minta 
"megjegyzésére" képes. Az előző szakaszban használt ötletet próbáljuk meg itt 15 alkalmazni, és a súlyok 


tő AB ál 


ha ÉeTÓ s 


fi 
] 
7 aj dal 
WV a] 


fi 


, 11.7) 


ahol / a tanítandó minták száma (az eddig használt nagy P betűt a valószínűség jelölésére alkalmazzuk ebben a 
fejezetben), és £ ezek indexe. 


Vizsgáljuk meg, hogy az a"! minták stabil állapotai lesznek-e a rendszernek. A stabilitási feltétel most a 5 
indexű mintára: 


sense ya ig) 


ahol az s," összeg: 
(A) (p.a sa FS tő 
gp — vet) mesa 24 als, 
il j-l a (11.9) 


Az összegből az a-b -hoz tartozó tagokat: 


] az8 (11.10) 


Látható, hogyha a második, keresztkapcsolat tag a," -vel megegyező előjelű, vagy ellentétes előjelű és 1-nél 
kisebb abszolút értékű, akkor a tárolt mintának ez a bitje stabil. Mint majd látni fogjuk ez a feltétel megfelelően 
kis számú minta tanításakor nagy valószínűséggel igaz. Ilyenkor a tárolt mintákhoz stabil állapotok tartoznak. A 
tárolt mintáktól valamilyen kis távolságban lévő konfigurációkból indítva a hálózatot a tárolt mintához tartozó 
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állapotban stabilizálódik a rendszer, azaz képes hibás, zajos, hiányos minták helyreállítására, felismerésére. A 
vonzási körzet mérete természetesen függ a tanított minták számától, egymáshoz viszonyított 
elhelyezkedésüktől. 


Most nézzük meg hány minta tárolható egy adott méretű hálózatban. Mivel ez függ a konkrét tanítandó 
példáktól, így azért, hogy legalább becslést tudjunk tenni, véletlenszerűen választott mintákat feltételezünk. 
Először vizsgáljuk meg a stabilitást egy véletlenszerű minta egy bitjére. A keresztkapcsolat tag hatásának 


(61 
egyszerűbb elemezhetősége céljából képezzük a tagot -;  -vel szorozva a következő kifejezést: 


] az (11.11) 


(61 (61 
A fent elmondottak szerint, ha Ci kisebb, mint --(1, akkor a $-adik minta i-edik bitje stabil. Látható, hogy c; 


(61 
kizárólag a tárolt mintáktól függ. Ezek alapján az instabilitás valószínűségét becsüljük: P..or— P( szi jp 


(61 
A § összeg M(/-1) véletlenszerű előjelű, I/N abszolút értékű tagból áll, és nagy / és N értékeket feltételezve, 


(61 ! 
C§ közelíthető egy 0 várható értékű és 7 — LN szórású Gauss eloszlással: 





Üna 
1 KE: 
Pen — [z Hl 
j 


AL ÁZTET 


(11.12) 


Az eloszlást és néhány hibaértékhez tartozó laszN arányt mutat be a 11.4 ábra. Ez például azt mutatja, hogyha 
azt kívánjuk, hogy egy minta egy bitje 0.999 valószínűséggel legyen stabil, akkor egy 1000 neuront tartalmazó 
hálózatban 105 mintát tárolhatunk. Hasonló módon lehet az összes minta összes bitjére valószínűségi állítást 
megfogalmazni. Szintén véletlenszerű példákat tekintve erre az esetre Jó közelítésnek vehető a lnax:-MNlogN 
arány. Mivel ez az eredmény a leírt feltételek esetén igaz, így célszerű az alkalmazásoknál ennél kisebb /. /N 
arányt választani. 


11.4. ábra - Véletlenszerűen választott minták stabilitása 


PC) 
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A Hopfield hálózatok az eddig bemutatott autoasszociatív jellegű problémákon kívül használhatók 
heteroasszociatív feladatok megoldásra is, ahol a tanítás során a bemenetekhez önmaguktól eltérő kimeneteket 
rendelünk (pl. osztályozási feladatok). Ilyenkor a neuronok egy része a minták bemeneti elemeinek felelnek 
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meg, míg a másik, kisebb részét (tipikusan 10-2092-át) kimenetnek tekintjük. Így a tanítás során a tárolandó 
minták a bemeneti vektorokból és a hozzájuk tartozó kívánt kimenetekből állnak. 


Teszteléskor és a már betanított hálózat alkalmazásakor a bemenetekhez tartozó neuronok kezdeti állapotát a 
bemeneti minta szerint állítjuk, míg a kimenetet reprezentáló neuronokat tetszőleges értékűekre inicializálhatjuk. 
Ha a hálózat súlyait korábban sikerült megfelelően beállítani, akkor az autonóm működés során a hálózat egy 
olyan állapotban stabilizálódik, amelyben a bemeneti neuronok kezdeti értéküket veszik fel, míg a kimeneti 
neuronok arra az értékre állnak be, amelyet a tanítás során az adott bemenethez kívánt kimenetként megadtunk. 


1.2. Az energiafüggvény 


A Hopfield modell egyik előnyös tulajdonsága, amit később majd alkalmazásoknál ki 1í15 használunk, hogy 


előt A8LaN A 


meghatározni, és ezzel meghatározunk egy a konfigurációs tér fölött értelmezett energia felületet. 


Az energiafüggvény (amely Ljapunov függvényként használható) alapvető tulajdonsága, hogy az autonóm 
rendszer működése során értéke mindig csökken vagy változatlan marad. Tehát egy tetszőleges konfigurációból 
elindított hálózat az energiafüggvény valamely lokális minimumpontjában fog stabilizálódni, azaz a vonzási 
pontok az energiafelület lokális minimumai [Bru90]. Ha a súlyokat sikerül úgy megválasztani, hogy a tárolandó 
minták a minrmumpontokba essenek, akkor a rendszer vizsgálható az energiafüggvény alapján. 


A hálózatra felírható energiafüggvény a következő: 
1 
BH — — md Hg AgA ij e Ha fela 
fi j (11.13) 


Ha a felírt képlet energiafüggvénye a hálózatnak, akkor ennek definíciójából következő tulajdonsága, hogy 
autonóm működés során értéke csökken vagy nem változik. Az energiafüggvény megfelelősségét igazolandó 
vizsgáljuk meg a rendszer energiaváltozását egy állapotváltozás során: 


Az? - E(ka11- E(k) 
ED wa lkel]ajlke1]- Des [41] 
Ewa (ka (x) D0rs(k) 
i d i 
--S(xlk1)- s Íoaa mea 
; J 
l 


ala (£a1— x(£)) Dw (xy (kr 11— 2 9) 
; J 


-—T (kel) áx(ka1- án (1) Wax(k 1) (11.14) 


ahol 


s(4611- Wxlikjroa (11.15) 


Aszinkron működésű hálózat minden állapotváltozásakor pontosan egy neuron vált értéket. Ha a súlyok mátrixa 


; ; Vr; — Mi . j fepösik  rlsáröti e ába s zÉ 
szimmetrikus ( § J), akkor a r-edik (1575 W ahol N a neuronok száma) neuron értékváltását vizsgálva a 
következőt kapjuk: 


AE 7-s, (kaTjáx [1 rnő 


Mivel a (11.1) képlet szerint 5 határozza meg a neuron értékváltását, így 5 és Ég előjele megegyezik, azaz 


fr r r 8 , T FE " . Fa yr y si r r 
az első tag értéke nem lehet pozitív. Így, haa ! visszacsatoló súlyok nem negatívak, akkor az energia változás 
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értéke nem lehet pozitív, azaz a (11.13) összefüggéssel definiált függvény valóban Ljapunov függvénye a 
rendszernek. 


Néhány megjegyzést érdemes tenni a fenti eredménnyel kapcsolatban. Bár a súlymátrix szimmetrikusságának 
megkötése erős feltétel, az alkalmazások jelentős részénél ez nem okoz problémát. Ilyen súlymátrixot 
eredményez az említett Hebb szabály alkalmazása és a gráfelméleti alapokra visszavezethető optimalizációs 
problémák jelentős részénél 15 természetesen adódik a szimmetrikus mátrix megválasztása. Az önvisszacsatoló 
kapcsolatok súlyára az energiafüggvény hozzárendelés szempontjából csak a nem negatív érték a feltétel, de 
megmutatható, hogy a hálózat dinamikáját előnytelenül befolyásolja, ha értékeit 0-nál nagyobbra választjuk. A 
pozitív önvisszacsatoló súlyok hatásának lényege, hogy nem kívánt stabil állapotokat hozhatnak létre a 
rendszerben, sőt egy a többi paramétertől függő érték felett akár egy neuronnak mindkét állapota 1s stabil lehet a 
többi neuron értékétől függetlenül. 


Az önvisszacsatoló súlyok 0-ra választásának van egy további előnye 1s. Ilyenkor a (11.16) egyenlet értelmében 
nemcsak az igaz, hogy az autonóm hálózat állapotváltása egyértelműen meghatározza az energiafüggvény 
értékváltozásának előjelét, de a kapcsolat fordított irányban 15 közvetlen. Tehát ebben az esetben az aszinkron 
hálózat akkor és csakis akkor vált értéket, ha az energiafüggvény értéke csökken. Ez a gyakorlat számára azt 
jelenti, hogy a neurális hálózat szimulációja és az energiafüggvény szomszédos állapotokon keresztül történő 
minimalizálása ekvivalens eljárások, így választhatjuk közvetlenül ez utóbbit is egy probléma szimulációval 
történő megoldására. 


A párhuzamos, szinkron ütemezésű Hopfield modell dinamikus tulajdonságai lényegesen eltérnek az aszinkron 
modellétől. A stabilitás vizsgálatát itt 15 a(11.13) szerint definiált energiafüggvény változásával végezhetjük el: 


487 Elka1]1- gÍk) 


T TE ssdó 
— —s [Xrl]áx]k411——Ax [XII Wéxik-a1 
57 (een ]Az(k tj zási (ER UWAR (kr) ag 


Az első tag értéke az aszinkron modellnél leírt indoklás miatt Itt sem pozitív. A második tagra ugyanez a feltétel 
— a benne szereplő szorzat miatt — akkor igaz, ha a W súlymátrix pozitív szemidefinit. A szinkron modell 
esetében tehát elégséges feltételként a súlymátrix pozitív szemidefinit tulajdonsága szerepel, ami azt jelenti, 
hogy a főátlóban lévő értékeket általában nem választhatjuk 0-ra, és az sem igaz, hogy a rendszer mindig 
állapotot vált, ha ezzel az energiafüggvény csökkenne. Ha a súlymátrixot az aszinkron modellnél alkalmazotthoz 
hasonlóan, itt 15 szimmetrikusra választjuk 0 értékű főátlóbeli elemekkel, akkor a szinkron modell vagy egy 
stabil állapotba vagy egy 2 hosszúságú határciklusba konvergál. Energiafüggvény létezésére a fentieknél 
általánosabb feltételek 15 ismertek, amely szerint ún. kvázi szimmetrikus súlymátrix is stabil rendszert 
eredményez, de ezek az eredmények közvetlenül nem használhatóak fel a hálózatok alkalmazásakor. 


1.3. Az energiafüggvény felhasználása 


Először azt mutatjuk be, hogy az előző fejezetben bevezetett energiafüggvény és a korábban ismertetett Hebb- 
szabály alkalmazása azonos súlyok meghatározásához vezet. Induljunk ki most az energiafüggvényből. 
Próbáljuk ezt úgy megválasztani, hogy minimumpontjai a tárolandó minták legyenek. Egyetlen tanítandó minta 
esetében ez egyszerűen biztosítható. Az energiafüggvény minimuma legyen ott, ahol a minta és a konfiguráció 
átfedése (megegyező értékű bitek száma) maximális: 


1 
ii , (11.18) 


ahol az 1/M-es szorzó csak a korábbi képletekkel való hasonlóság kedvéért szerepel. Több minta esetében 1s a 
tárolt minták az energiafüggvény minimumai kell, hogy legyenek. Az itt alkalmazott módszer szerint határozzuk 


jedő ARG A 


vesszük: 


? 4 
EE?) 


(11.19) 


A tagokat kibontva és átrendezve a következőket kapjuk: 


318 
XMLmind XSL-FO Converter 


Analitikus tanítású hálózatok 


aa alla 53) 
W el 
(11.20) 


Látható, hogy a Hopfield hálózathoz definiált eredeti energiafüggvényt kaptuk vissza, feltételezve, hogy a 
súlyokat a Hebb-szabály szerint választjuk. Ez az eredmény a gyakorlatban is jól alkalmazható. Keressünk egy 
olyan függvényt, amely energiafüggvénye a rendszernek és minimumpontjai az adott feladat megoldásaihoz, a 
tanított mintákhoz tartozó konfigurációknak felelnek meg. Ha sikerül ilyet találni, akkor a tagok 
szétválasztásával a hálózat súlyai meghatározhatók, azaz létre tudunk hozni egy, a problémát megoldani képes 
hálózatot. 


Tisztázni en még, hogy milyen alakú tagokat tartalmazhat a választandó energiafüggvény. Bebizonyítottuk, 


hogy a J alakú tagok alkalmazhatók. Nyilván nem jelent gondot, ha a függvény konstanst is tartalmaz. 


Ezenkívül megfelelnek a feltételeknek a Vi-i alakú tagok 15, mivel ezek diákkal egy konstans 1 értékű x, 


; se öle : ÜT 
neuron és az x; közötti kapcsolathoz tartozó tagnak. Azonban a ütegek alakú, illetve magasabb-rendű 
kifejezések már nem értelmezhetőek a bemutatott struktúrájú Hopfield Körösi energiafüggvényében. 


Meg kell még jegyezni, hogy szoftver megvalósítás esetében nem feltétlenül kell a hálózat működését 
szimulálni. Ha a neuronok önvisszacsatoló súlyait 0-ra választjuk (w::.-0), akkor (11.16) szerint nem csak az lesz 
igaz, hogy a hálózat autonóm működése során az energiafüggvény csökken, de az 15, hogyha az 
energiafüggvény csökkenne egy neuron értékváltásakor, akkor a neuron értéket is vált. Ilyenkor a hálózat 
szimulációja és az energiafüggvény minimalizálása ekvivalens eljárások, így választhatjuk közvetlenül ez 
utóbbit a probléma megoldására. Ezt a módszert néhány alkalmazási példával illusztráljuk a 11.2. fejezetben. 


Szinkron működésű hálózat esetén 1s igaz, hogy (11.13) energiafüggvénye a rendszernek, ha a súlyokat a Hebb- 
szabály (11.7) alapján határozzuk meg. Ennél általánosabb elégséges feltétel a hálózat stabilitására a súlymátrix 
pozitív szemidefinitre választása. Hangsúlyozni kell, hogy ilyenkor általában az önvisszacsatoló súlyok nem 
választhatók önkényesen 0-ra (nem feltétlenül maradna a súlymátrix pozitív szemidefinit), és így az sem igaz, 
hogy a rendszer mindig állapotot vált, ha ezzel az energiafüggvény csökkenne ismétlés. Bár az energiafüggvény 
lokális/globális minimumait itt 1s stabil állapotai a rendszernek, a szinkron Hopfield hálózatnak (ellentétben az 
aszinkronnal) nem minden stabil állapota lokális/globális minimum. Ez azt jelenti, hogy a rendszerben 
"nemkívánatos" stabil állapotok jelennek meg. Előnye viszont az aszinkron hálózathoz képest, hogy 
könnyebben kerül ki a rendszer a lokális minimumokból, mivel nemcsak szomszédos állapotokon keresztül jut 
el egy stabil állapotba. 


2. A Boltzmann gépek 


2.1. Problémák a Hopfield hálózat alkalmazásakor 


Az előző fejezetben bemutattuk, hogy akár a Hebb-szabály alkalmazásával, akár egy alkalmas energiafüggvény 
megválasztásával a súlyok általában meghatározhatók úgy, hogy a tárolandó minták vonzási pontok legyenek a 
konfigurációs térben, azaz lokális minimumai legyenek a rendszerhez tartozó energiafüggvénynek. A hálózat 
egy (Hamming távolság értelemben) megfelelően közeli konfigurációból, a vonzási körzet valamely pontjából 
indítva, a dinamikus működés során a kívánt állapotban fog stabilizálódni. 


Az ideális az volna, ha a teljes konfigurációs teret kitöltenék a tárolt minták és ezek vonzási körzetei, mivel így 
tetszőleges állapotból indítva a hálózatot, az a legjobban "hasonlító" tárolt mintára asszociálna. A helyzet 
természetesen nem ilyen szép. A tanított konfigurációkon kívül számos más vonzási pont 1s létezik. Ezek 
típusait igazolás nélkül ismertetjük: 


—iei , juká era . 
e az összes tárolt minta inverzéhez 3 ] is lokális minimum tartozik, 


e olyan ún. kevert állapotok 15 vonzási pontok, amelyek páratlan számú tárolt minta lineáris kombinációiból 
kevert (ap) ol02) a el85) 
állíthatók elő. Például ilyenek az alábbi állapotok: 8? 7 SeMEgp tap tap 


e nagyméretű hálózatokban viszonylagosan nagyszámú tanított minta esetén bizonyítható, hogy kialakulnak 
olyan lokális minimumok, amelyek nem korreláltak a minták semmilyen részhalmazával sem. 
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Bár az utóbbi két osztályba sorolt vonzási pontokhoz magasabb energiaértékek tartoznak és általában kisebb a 
vonzási körzetük is, a rendszer ezekben a hamis lokális minimumokban is stabilizálódhat. Célunk 
mindenképpen az, hogy elkerüljük a "nem kívánt" lokális minimumokba történő beragadást. A helyes, optimális 
megoldáshoz tartozó állapot megtalálása egy adott hálózat esetén a kundulási konfigurációtól függ. A kezdeti 
állapot az alkalmazások többségében vagy adott, vagy nincs 15 információnk ennek megfelelő megválasztásáról, 
így a legtöbb alkalmazás esetében célszerű a Hopfield hálózat működési algoritmusának módosítása. 


Az említett hátrányos tulajdonságok kiküszöbölésére többféle ötlet 15 adódik: 


e Ha a kiindulási konfiguráció nem adott, akkor a rendszert különböző kezdeti állapotokból indítva kereshetünk 
minél mélyebb energiájú megoldást. 


e A működési algoritmust úgy módosítjuk, hogy egyszerre (szinkron) több neuron 1s értéket válthasson, így a 
konfigurációs tér nagyobb részében végezzük el a keresést. 


e Hasonlóképpen megnöveli egy alacsony energiaszíintű minimum megtalálásának esélyét, ha a neuronok 
működését sztochasztikussá tesszük. Ennek egy módja lehet, hogy korlátozott arányban olyan esetben is 
elfogadjuk a neuronok értékváltását, ha ettől a rendszer magasabb energiájú állapotba kerül. 


A következő fejezetben olyan módszert mutatunk be, amely ez utóbbi lehetőséget használja a globális 
minimum, de legalábbis egy kis energiájú lokális minimum megtalálására. 


2.2. Szimulált lehűtés 


A lokális minimumok elkerülésére leggyakrabban az ún. szimulált lehűtés módszert alkalmazzák a Hopfield 
hálóknál. A hálózat ilyen kiterjesztését Boltzmann gépnek vagy szimulált lehűtés hálózatnak hívjuk [ Aar89]. 


A módosítás alapgondolata, hogy változtassuk sztochasztikussá a minimum-keresési eljárást úgy, hogy az 
lehetőséget adjon a lokális minimumokból történő kikerülésre. Ezzel tulajdonképpen bizonytalanságot, azaz zajt 
viszünk be a folyamatba, ami "kiütheti" a kevésbé mély lokális minimumokból a rendszert, és így az nagyobb 
eséllyel stabilizálódhat a legmélyebb, globális minimumban [Pav0O5]. 


A módszer nevét a szilárd anyagok hőkezelésekor használt hasonló elvű módszerről kapta. Az anyagot először 
felhevítik, majd lassan lehűtik, és így nem a magasabb energiájú metastabil állapotokban, hanem a szabályos 


kettőt dlsült a 


A szimulált lehűtés tehát a determinisztikus minimumkeresési eljárás helyett sztochasztikus keresést 
eredményez. A módszer alkalmazása a Hopfield hálózatok esetében a determinisztikus működésű neuronok 
sztochasztikus egységekkel való felváltását jelenti. 


A modell neuronjainak működése egy sztochasztikus szabállyal írható le, amely meghatározza az értékváltások 
utáni lehetséges állapotok kialakulásának valószínűségét: 


l 
P(x - £11- Jr(s)-———— 8 ahol spe 5 es 4O 
reep[8 f) 


(11.21) 


11.5. ábra - Különböző T értékekhez tartozó szigmoid karakterisztikák 
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P — Allapotváltás való 


-I0 -8 -ó6 -4 -2 0 2 4 6 8 10 
AB — Energiavaltozas 


A neuronok véletlenszerű viselkedését szabályozó 7 paramétert az analógia alapján pszeudo-hőmérsékletnek, 
vagy csak egyszerűen hőmérsékletnek nevezik. A (11.21) szerinti szigmoid karakterisztika meredekségét a T 
paraméter határozza meg, magas T értéknél a karakterisztika lapos, míg ha a paraméter 0-hoz tart, akkor a görbe 
konvergál a determinisztikus hálózat transzfer függvényéhez, a (11.2) szerinti lépcsőfüggvényhez. Ez azt jelenti, 
hogy magas hőmérsékleten a neuronok a bemeneti gerjesztésüktől függetlenül véletlenszerűen váltanak értéket, 
míg a hőmérséklet paramétert csökkentve a rendszer egyre inkább a determinisztikus modellhez közelít. A 
hálózat működését most is tudjuk jellemezni az energiafüggvény felhasználásával. A Boltzmann gépnek a 
(11.21) definícióval ekvivalens leírása a következő: 


: ahol AZ - E(—x1— (xx) 





P(x; — —x; ]- AR : 
1re! (11.22) 


Az energiaminimum elérését vagy megközelítését a fizikai analógia alapján a szimulált lehűtés módszerével 
végezzük. A rendszert egy magas kezdeti hőmérsékletről indítva, a hőmérséklet paraméter lassú csökkentése 
mellett működtetjük, míg a hálózat stabil állapotba nem kerül. Ha a rendszert megfelelően lassan hűtjük, akkor 
egy adott hőmérsékleten egyensúlyi állapotba kerül. 


A kialakuló egyensúlyban a hálózat egy Ex energiájú 8 állapotba való kerülésének valószínűségét a 
Boltzmann eloszlás írja le: 





PS- xx) zTm , (11.23) 


ahol 34 LT) stacionárius eloszlásban a Z(71) partíciós függvény definíciója egy az összes lehetséges állapoton 
elvégzett összegzés: 


-E; 
z(Trj- yet 


J (11.24) 


Amennyiben a rendszer lehűtése során biztosítjuk az aktuális hőmérsékleten az egyensúlyi állapot kialakulását, 
akkor a hálózat konvergenciáját a következőképpen vizsgálhatjuk: 
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Eg Bin bz 
im gy (Tj- 1 fg ÉLT 
1rri TT 17 lm — lm 
Ta Tan 0$; Top 0 ömmő; 
ai 2 € 1 
al d (11.25) 


A zérus hőmérséklethez tartozó határértéket külön felírva az min energiaminimummal rendelkező fr § A min 








globális minimumhelyekhez tartozó állapotokra és az Ex 2 Emin energiájú kf A min állapotokra a 
következőket kapjuk: 
VXrEZ min im a íme lirn k SMRE. 
jllsa KE Ta Amőt (ai 
2e ! 
d 
Bnin k 
v7 endre firm E Ü 
Xr € A rrin : irri f]7 lm —- 
köt Tao Tan Fan Z; 
2e ! 
d (11.26) 


Tehát a hálózat a szimulált lehűtés ideális alkalmazásával aszimptotikusan konvergál az optimális 
megoldásokhoz tartozó állapotok halmazába, azaz az eljárás mentes a lokális minimumba való beragadás 
problémájától. Az alkalmazások szempontjából azonban fontos, hogy véges idejű lehűtést alkalmazhassunk. A 
szimulált lehűtés algoritmus tulajdonságai ilyen szempontból is kedvezőek. A lehűtés során az optimális 
megoldáshoz tartozó állapotba kerülés valószínűsége folyamatosan nő a hőmérséklet csökkentésével, 
ugyanakkor minden más állapothoz található egy olyan hőmérséklet küszöb érték, ami alatt az adott állapot 
előfordulási gyakorisága monoton csökken. Ez az eredmény az aktuális hőmérsékletekhez tartozó egyensúlyi 
állapotokra vonatkozik. Azonban általánosan 15 igaz, véges idejű lehűtés esetére 15, hogy minél lassabb lehűtést 


ult öle Al 


A Boltzmann hálózat gyakorlati alkalmazásához meg kell határozni a hőmérséklet paraméter változatásának 
algoritmusát, az ún. lehűtési stratégiát. A lehűtési stratégia a következő elemeket tartalmazza: 


e kezdeti hömérséklet (7 ) 


-A rendszert olyan magas hőmérsékletről indítjuk, amelyen a neuronok véletlenszerűen változtatják állapotukat. 
A hőmérséklet csökkentését azonnal meg lehet kezdeni, mivel ezen a hőmérsékleten a rendszer kezdettől fogva 
egyensúlyi állapotban van. 


e lehűtés szabályozó függvény, amelynek 2 komponense a következő: 
-Az adott hőmérsékleten elvégzendő állapotváltozások száma, 
-A hőmérséklet csökkentésének mértéke. 


-A lehűtés sebességét meghatározó függvény paramétereit a feladat megoldására rendelkezésre álló idő és az 
adott számítási környezet által meghatározott állapotváltozási sebesség korlátozza a gyakorlatban. Egy elterjedt 
heurisztikus módszer, hogy a hálózat méretének kisszámú többszöröse számú (tipikusan 3N-15N) neuron 
frissítése történjen meg egy adott hőmérsékleten, majd a hőmérsékletet egy 1-hez közeli faktorral szorozva 


csökkentjük (ka 78 ), ahol c értéke általában 0.8 és 0.99 közötti). 
e megállási feltétel 


-A szíimulációt akkor lehet befejezni, ha a rendszer energiája nem változik egy megfelelően hosszú iteráció 
során. Mivel a hőmérséklet csökkentésének módszere általában olyan, hogy ez az érték aszimptotikusan 
konvergál a 0-hoz, ezért a minimumhelyekből való kijutás mindvégig lehetséges. Alacsony hőmérsékletnél 
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azonban ez a valószínűség már olyan kicsi, hogy feltételezhető, hogy a rendszer egy stabil állapotot talált meg. 
Ezt ellenőrizhetjük a leállás után a hőmérséklet paraméter 0-ra állításával, azaz a determinisztikus hálózattal. 


Számos más lehűtési stratégia 15 15mert a szimulált lehűtés módszerhez, amelyek közül bármelyik felhasználható 
a Boltzmann hálózat működtetéséhez. A hőmérséklet csökkentésének mértékét szokásos még logaritmikus vagy 
polinom függvény formájában 1s definiálnt. 


3. Mean-field hálózatok 


A Hopfield hálózat determinisztikus neuronjait sztochasztikus viselkedésű elemekkel felváltva lecsökkenthető a 
lokális minimumokba való beragadás valószínűsége. A szimulált lehűtés módszer alkalmazásának az ára 
viszont, hogy a gyorsan konvergáló Hopfield modell helyett, egy lassú, nagyszámú iterációt igénylő algoritmust 
kell használni. Bár a Boltzmann hálózat konvergencia-sebessége a lehűtési stratégia paramétereinek 
változtatásával szabályozható, a gyakorlatban eredményesen használható lehűtési módszerek jelentősen 
megnövelik a futtatás idejét. 


A szimuláció során azonban nincs szükségünk a sztochasztikus rendszer elemei pillanatnyi állapotainak 
ismeretére, így ha a hálózat viselkedése a sztochasztikus neuronok aktuális értékének számítása nélkül 15 
leírható, akkor ezzel gyorsítani lehet a globális minimum keresését. Bár egzakt megoldás nem ismert erre a 
problémára, nagyméretű hálózatok esetében a sztochasztikus változók várható értékét becslő közelítés, a mean- 
field approximáció sikeresen használható. A mean-field módszer Jól ismert a statisztikus fizikában, ahol nagy 
szabadságfokú rendszerek (pl. mágneses anyagok) leírására gyakran alkalmazzák [Her91 ]. 


A mean-field közelítés felhasználásakor a rendszer diszkrét, sztochasztikus változóit folytonos, determinisztikus 
változókkal helyettesítjük [Nak97] sztochasztikus Boltzmann hálózat egy adott hőmérsékleten egyensúlyi 
állapotba konvergál, így ilyenkor a változók átlagértékei idő-függetlenek. A módszer lényege tehát, hogy az 


egyensúlyi állapotban lévő sztochasztikus hálózat neuronjainak átlagértékét — BZ. ; — próbáljuk meghatározni 
(11.21) felhasználásával: 


CS S FVGsSiji re essijjai 


TENNÉ ERRE TARTA RÉT zását : EGK 
ES aa a E dé ka cl Kl a 
S tanhl s; íT) (11.27) 


A mean-field közelítés alkalmazásakor véletlen változók függvényének átlagát közelítjük a változók átlagának 


függvényével. Helyettesítsük a 11.21-beli, a sztochasztikus neuronok hatását kifejező "7 -ket átlagértékükkel: 


Sly JE megt — 3 W;j TES) 
j d 


ú (11.28) 


nat tai (6 MT e tanh És M;j heje új 
ú (11.29) 


A termikus egyensúlyi állapotban lévő sztochasztikus hálózat neuronjai tehát a (11.29) által definiált N 
determinisztikus nemlineáris egyenlet megoldásai körül, mint átlagértékek körül oszcillálnak. A (11.29) 
egyenletet mean-field egyenletnek nevezzük. A fenti nemlineáris egyenletrendszer ekvivalens egy folytonos 
kimenetű (szigmoid aktivációs függvénnyel rendelkező) Hopfield hálózat modelljével. A megoldás a hálózat 
rendszer stabil. Ez lényegében egy gradiens alapú keresésnek felel meg. Hasonlóan a diszkrét értékű Hopfield 
hálózathoz, ehhez a rendszerhez 15 rendelhető energiafüggvény, amely biztosítja a stabilitást, mivel az 
energiafüggvény kielégíti Ljapunov stabilitási tételének a globális aszimptotikus stabilitásra vonatkozó 
feltételeit. A folytonos értékü Hopfield hálózatnak [Far90] a következő függvény energiafüggvénye, ha W 


szimmetrikus és Éz —Arnin : 
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xX 


li 
Er 7 -2 MG j — bla Í tan [xb 
if d j Ü (11.30) 


Ismert, hogy ha a súlymátrixnak van negatív sajátértéke, akkor a 7 paraméter kis értékeinél 2 periódusú 
határciklusba 15 kerülhet a hálózat. A diszkrét és folytonos hálózatok energiafüggvényének hasonlósága jelzi, 
hogy a két rendszert 15 hasonló tulajdonságok jellemzik és egy-egy arányú kapcsolat áll fenn az energia 
minimumok és maximumok között. 


A mean-field algoritmus megvalósítására a leggyakrabban, a Boltzmann gépnél bemutatottakhoz hasonlóan ttt 15 
szimulált lehűtést alkalmaznak. Ilyenkor a lehűtés során minden hőmérsékleten ki kell számolni a mean-field 
változók értékeit, majd ezt a megoldást lehet felhasználni az alacsonyabb hőmérsékleten kezdeti értékként. 
Mivel a mean-field modell ekvivalens a folytonos Hopfield hálózattal, ezért a hőmérséklet csökkentésével ez a 
modell 1s a diszkrét Hopfield hálózathoz konvergál. 


Mind a Boltzmann, mind a mean-field hálózatok a lokális keresést végző aszinkron Hopfield hálózat 
kiterjesztései, amelyek sztochasztikus keresés felhasználásával növelik meg a globális optimum megtalálásának 
esélyét. Mivel a módszerek egymásnak alternatívái, természetesen adódik a kérdés, hogy melyiket érdemes 
alkalmazni. Egyértelmű válasz megfogalmazása még egy konkrét probléma esetében 15 nehéz és bátorságot 
igénylő feladat. A következőkben az elméleti és tapasztalati ismeretek alapján több szempont szerint fogjuk 
vizsgálni és összehasonlítani a Boltzmann és mean-field neurális hálózatokat. 


A módszerek elméleti háttere 


A szimulált lehűtés módszerét közvetlenül alkalmazó Boltzmann hálózatról ismert, hogy aszimptotikusan 
konvergál az optimális megoldáshoz, sőt az eljáráshoz optimális sebességű lehűtési stratégia 15 ismert. Ezen 
felül, ehhez az algoritmushoz rendelkezésre áll olyan vizsgálati lehetőség, amely a megtett iterációk számához 
képes az aktuális megoldás várható költségének az optimális megoldás költségétől való eltérésére korlátot adnt. 
Bár ezt a pontosság mértékét meghatározó eljárást a gyakorlatban jelentős számításigénye miatt nem tudjuk 
alkalmazni, a korlát léte önmagában 15 eredmény. A mean-field módszer esetében ilyen igazolt tételek nem 
állnak a rendelkezésünkre. Ennek oka az, hogy a mean-field közelítés pontosságára nem ismert becslés véges 
méretű rendszerek esetében. 


A megoldások minősége 


A tapasztalatok azt mutatják, hogy a Boltzmann hálózat sok esetben az elméletileg szükségesnél 
nagyságrendekkel gyorsabb lehűtés alkalmazása esetén 15 igen Jó minőségű megoldást ad. A mean-field 
módszer esetében a keresés az átlagolással és az átlag meghatározás pontatlanságával járó információvesztés 
miatt kevésbé érzékeny a probléma részleteire, ami az optimálishoz közeli energiaértékű megoldások 
megtalálásának valószínűségét csökkenti. Különösen igaz ez, ha az energiafelület változatos, számos, 
viszonylag kis átmérőjű mély gödröt illetve csúcsot tartalmaz. 


A keresés ideje 


A sztochasztikus rendszer valódi állapotváltozásait nem követő, az átlagértékeket közvetlenül becsülő mean- 
field hálózat lényegesen kevesebb iteráció alatt konvergál az egyensúlyi állapot értékeihez, mint a Boltzmann 
hálózat. A tapasztalatok azt mutatják, hogy a mean-field módszer kevésbé érzékeny a lehűtési stratégia 
paramétereinek megválasztására és a lehűtés sebességének növelésével kevésbé romlik a hatékonysága. Ezt a 
tapasztalatot támasztja alá az energiafüggvények jellege közti különbség. A mean-field módszert megvalósító 
folytonos kimeneti függvénnyel rendelkező Hopfield hálózat energiafüggvénye simább, mint a hasonló 
súlyokkal rendelkező diszkrét hálózaté, amelynek következtében a minimumok keresése gyorsabban is 
folytatható. 


A probléma jellege 


A Boltzmann hálózat egyaránt alkalmas kis és nagyméretű, illetve simának vagy változatosnak tekinthető 
energiafelületet eredményező feladatok megoldására. A mean-field módszer viszont azon a feltevésen alapszik, 
hogy megfelelő közelítés a nagyméretű homogén rendszer átlagértékeit meghatározni. Ezért kisebb méretű 
problémák vagy olyan bonyolult feladatok esetében, amikor ezek a feltevések nem igazak, akkor a mean-field 
egyenletek megoldása az eredeti probléma optimumától távoli eredményeket adhat. 
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Természetesen egy átfogó értékeléshez vagy egy alkalmazás esetében a megfelelő módszer kiválasztásához a 
fenti szempontokat együttesen kell figyelembe venni. Az eddigi érvelések a módszerek közti választáshoz 
mérlegelési szempontokat adhatnak, a tesztek megtervezéséhez iránymutatást nyújthatnak. A sok 
bizonytalanságot tartalmazó elemzés összefoglalásaként két jellemző görbe párt mutat be a 12.6 ábra. Látható, 
hogy a nagyobb méretű, de egyszerübbnek tekinthető feladatok esetében jól kihasználható a mean-field 
közelítés gyorsasága, míg a bonyolultabb problémáknál a Boltzmann hálózat alacsonyabb költségű megoldást 
eredményez, bár ha egy adott időn belül kell választ adni, akkor létezik egy határérték, ami alatt a mean-field 
hálózat hatékonyabb. 


Ha egy alkalmazási feladat esetében van lehetőség a két módszer között vizsgálatok alapján választani, akkor 
mind a két, különböző irányú megközelítés mellett lehet hasonló súlyú érveket felhozni. Kezdhetjük a 
vizsgálatokat a mean-field hálózattal, és ha nem sikerül megfelelő pontosságú eredményt elérni, akkor érdemes 
a Boltzmann hálózatot 15 alkalmazni. Vagy elemezhetjük először a Boltzmann hálózat eredményeit, és akkor 
döntünk a mean-field módszer vizsgálata mellett, ha elfogadható futási időn belül nem kapunk megfelelő 
minőségű megoldást. 


11.6. ábra - Tipikus lehűtési görbék Boltzmann és mean-field hálózatokkal a.) homogén 
energiafüggvényen b.) változatos, sok lokális minimumot tartalmazó energiafüggvényen 


És akt men 


.  Boltzmann halozat v .  Boltzmann hálózat 
MET hálózat MFT hálózat 











a.) b.) 


4. Hopfield típusú hálózatok alkalmazása 
optimalizációs problémákra 


Kombinatorikai optimalizációs feladatok megoldása nem jelent mást, mint megkeresni az optimálist a számos 
lehetséges megoldás közül. Rengeteg ilyen feladatra visszavezethető gyakorlati probléma ismert a 
számítástechnika, a VLSI tervezés, a közlekedésirányítás, az üzleti élet és számos egyéb területről. 


Az utóbbi egy-két évtizedben ezek a feladatok előtérbe kerültek, mivel sok korábban kezelhetetlennek tűnő 
probléma részben vagy teljesen megoldhatóvá vált. Ennek oka a technika fejlődésén kívül, a problémák 
nehézségének meghatározásában elért eredmények és az egyre hatékonyabb megoldási algoritmusok 
megjelenése. A legjelentősebb felismerés a 60-as évek végén született, annak a máig nem bizonyított, de nem 1s 
cáfolt hipotézisnek a felállításával, amely azt mondja ki, hogy létezik a problémák egy osztálya, amelyre az 
jellemző, hogy nem lehet konstruálni olyan algoritmust, ami a probléma méret hatványával arányos 
lépésszámmal biztosan képes a megoldást megtalálni. Ezek a problémák az NP-teljes problémák körébe 
tartoznak. Az optimalizáció témakörébe tartozó feladatok jelentős része ebbe a kategóriába sorolható. 


Az NP-teljes problémák megoldásánál kétféle stratégiát lehet követni. Ragaszkodhatunk az optimális megoldás 
megtalálásához, és ilyenkor kockáztatjuk egy nagyon hosszú, sok esetben kivárhatatlan eljárás esélyét, vagy 
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pedig egy viszonylag gyorsan megkapható megoldást választunk tudomásul véve, hogy esetleg az optimálisnál 
rosszabb minőségű megoldást találunk. Az első lehetőséghez tartoznak azok az optimalizációs eljárások, 
amelyek előzetes információk felhasználásával megállapított, hatékonynak ígérkező sorrendben megvizsgálják 
az összes lehetséges variációt. Ilyenek például a különböző kimerítő kereső eljárások. A másik csoportba 
sorolhatók a heurisztikát, véletlen elemeket használó módszerek. Ezek közös jellemzője, hogy valamilyen 
ismeret vagy elv szerint a lehetőségek egy részét figyelmen kívül hagyják. Ide tartoznak a különböző neurális 
hálózatokat alkalmazó módszerek 1s. 


Először megmutatjuk, hogyan lehet neurális hálózatokat optimalizációs problémák megoldására használni, majd 
néhány jellegzetes feladat Hopfield hálózattal, illetve Boltzmann géppel történő megoldását vázoljuk fel. 


Neurális hálózatokat egy optimalizációs probléma megoldására a következő két előfeltétel esetén tudunk 
használni: 


1. A lehetséges megoldások száma legyen véges. 


2. A megoldások minősége számszerűleg kifejezhető és bármely más megoldás minőségével összehasonlítható 
legyen. 


A feltételeknek megfelelő optimalizációs problémákat formálisan egy (S, C) kettőssel lehet leírni, ahol a 
megoldási tér, S egy véges halmaz, amely tartalmazza az összes lehetséges megoldást, míg C a költségfüggvény 
vagy kritériumfüggvény egy leképzés: 


é. s RK , (11.31) 


Tehát C minden megoldáshoz egy valós értéket, egy költséget rendel. Ezek után a feladat egy optimális apr s 


megoldásnak a megkeresése, amelyre a minimalizációs probléma esetén igaz, hogy: 


CÜGGECŰk MESZSZE 0 


(Maximalizációs probléma esetén az egyenlőtlenség természetesen fordítva áll.) 


Például, a talán legismertebb, bár közvetlen gyakorlati jelentőséggel nem bíró, de tipikus optimalizációs feladat, 
az utazó ügynök probléma (Traveling Salesman Problem, TSP) a következőképpen írható le. A problémában 
egy ügynöknek adott városokat kell végiglátogatnia úgy, hogy minden városban csak egyszer Járjon és a lehető 
legrövidebb utat megtéve érkezzen vissza a kiindulási pontba. 


[d 


Legyen adott az n város közti távolságokat leíró nxn-es va. mátrix. Egy, az ügynök által bejárandó, 
lehetséges útvonalat jelöljön a P-(P(1),....P(n)) ciklikus permutáció, ahol P(k) jelenti azt a várost, amelyik a k- 
adik után következik az úton (P(Kk)Ak). 


Így a lehetséges megoldások: S —(az n város összes P ciklikus permutációja) 


11.7. ábra - Egy jó és egy rossz megoldás az utazó ügynök problémára 





A megoldási tér mérete: IS1-(m-1)!, és ismert, hogy ez 15 egy NP-teljes probléma. A feladathoz tartozó 
költségfüggvény, azaz az út hossza: 
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FI 
eP)- 2, dppPw) 
p-] (11.33) 


Optimalizációs feladatok neurális hálózattal történő megoldásához a problémát le kell képeznünk a neurális 


etők tltetált d 


Boltzmann gép formális leírását egy B(x, W) kettőssel határozzuk meg, ahol x a neuronok állapotvektora és W a 
súlymátrix, akkor a probléma leképzését jelölhetjük az ?: X— 5 függvénnyel. 


s: 


Össze. 


1. Alakítsuk át az optimalizációs feladatot 0-1 programozási feladattá. Ehhez az eredeti diszkrét változók 
helyett megfelelő számú új bináris változót kell bevezetni. 


2. Definiáljunk egy Boltzmann gépet úgy, hogy minden egyes neuron a probléma egy változójának feleljen 
meg. 


3. Határozzuk meg a hálózat súlyait úgy, hogy a hálózathoz tartozó energiafüggvényre igaz legyen a következő 
két feltétel: 


I. Az energiafüggvény minimumpontjaihoz tartozó konfigurációknak a probléma változóinak olyan értékei 
feleljenek meg, amelyekhez optimális megoldások tartoznak (a költségfüggvény minimumpontjai) 


PS z a 7 Sat (11.34) 
II. Az energiafüggvény és a költségfüggvény legyen nagyságrendtartó: 
Cao) (Om) — Eég) (EC) 11.35) 


Ha az előzőekben leírtak szerint hozunk létre egy Boltzmann gépet optimalizációs probléma megoldására, akkor 
a hálózat egy véletlen kundulási konfigurációból elindítva olyan állapotban stabilizálódik, amely a probléma 
egy jó megoldását adja. Az utolsó pontban szereplő feltételek biztosítják, hogy ha a hálózat globális 
minimumpontban. stabilizálódik, akkor optimális megoldást kapunk, de ha egy alacsony energiájú lokális 
minimum lesz a stabil állapot, akkor 15 Jó minőségű, alacsony költségű megoldáshoz jutunk. 


4.1. Az utazó ügynök probléma 


A már bemutatott utazó ügynök problémát a fentiek alapján könnyen lehet Boltzmann típusú neurális hálózatra 
implementálni. Először új bináris változókat vezetünk be a probléma leírására: 


l  haazútseorán az r-edik város a 9-edik lépésben kerül rnmeglátogatásra 
"b" ]o egyébként 
A bevezetett változókkal a feladat költségfüggvénye, az út hossza így írható le: 


n—] 
CÍPJ- 2,  gijpgtípüt ig 
i..p.§70 , (11.36) 


ahol az "ra együtthatókat a távolságok alapján a következőképpen definiáljuk: 


ésa ha a-íetlimod Rn 
jpg 7 


§ egyébként (11.37) 


A költségfüggvény minimalizálásán kívül ügyelni kell, hogy a megoldás valódi utat írjon le, ezért be kell tartani 
a következő két kényszert: 
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n-] 


sp-re kó tp 7-1 (egy időpontban csak egy városban lehet az ügynök), 
i7-0 


n-] 
sZ1-re pa tp - 1 (minden várost pontosan egyszer látogasson meg az ügynök). 


p70 (11.38) 


A problémában szereplő minden bináris u;, változónak a hálózat egy x, neuronja fog megfelelni, így a hálózat m7 
neuront fog tartalmazni. A Hopfield modellről szóló fejezetben leírtak alapján a hálózat súlyait az 
energiafüggvény megadásával definiáljuk. Az utazó ügynök probléma megoldásához definiált függvény három 
tagból áll, melyekből az első a költségfüggvény minimalizálásáért felelős, a másik kettő pedig a problémában 
szereplő két kényszert realizálja: 


n-] n-] n-] z n-] n-] 2 
E- 3, dgypygg tel 2 112] t2 11-28 
i 7.p. a-b 7—( p7-Ü p7-Ü j—( 


(11.39) 


A hálózat súlyait az energiafüggvény tagjainak kiszorzása után közvetlenül megkapjuk, mivel nem szerepel 
benne x;, négyzeténél magasabb hatványfokú tag. Könnyű belátni, hogy a függvény minimumpontjai ott vannak, 
ahol az út minimális és a megoldás megfelel mind a két kényszernek, ezenkívül teljesíti a függvénnyel 
kapcsolatban korábban leírt feltételeket. 


Az eredmények azt mutatják, hogy az utolsó két tagot súlyozó c paramétert helyesen megválasztva igen jó 
megoldást talál a hálózat a problémára. Hozzá kell tenni azonban, hogy a tapasztalatok szerint a megoldás 
minősége jelentősen függ c értékétől. 


11.8. ábra - Egy 4 várost tartalmazó utazó ügynök probléma. 


Látogatás sorrendje 
l 2 3 4 


Város 





Az ábrán látható 16 neuronból a 4 aktív (fekete) processzáló elem egy lehetséges megoldást mutat. Az ábrán 
jelöltük még az n.2 neuron súlyozott összeköttetéseit (a szaggatott vonalak a c súlyú kapcsolatokat jelölik). 


A módszert hagyományos kombinatorikai algoritmusokkal összehasonlítva, a talált út hosszát vizsgálva a 
neurális hálózat a hagyományos algoritmusok megoldásainál valamivel gyengébb eredményt ad. Ennek alapvető 
oka, hogy a hálózat a véletlenszerű állapotból kundulva részben olyan állapotokon keresztül jut el a stabil 
állapotig, amelyek nem valódi utaknak felelnek meg, míg a hagyományos eljárások közül a legjobbak csak ilyet 
vesznek figyelembe. Így a hálózat számára a problématér, melyben az optimális megoldást keresi, lényegesen 
nagyobb. Ennek a gondnak a kiküszöbölésére javasolták a hálózat struktúrájának olyan módosítását, hogy a 
neuronokat csoportba szervezve ún. "k-ból 1 neuron"-okat alakítottak ki, ahol garantált, hogy a hálózat minden 


328 
XMLmind XSL-FO Converter 


Analitikus tanítású hálózatok 


neuron csoportjában mindig pontosan egy aktív van. Ilyenkor az energiafüggvény első tagjának módosítása után 
az utolsó két tag elhagyható. Ezzel a módszerrel a Boltzmann gépek mind minőség, mind sebesség tekintetében 
lényegesen jobb eredményeket értek el. 


4.2. Rádiófrekvenciák kiosztása neurális hálózattal 


Hasonló problémára vezet a haditechnikában és a polgári távközlésben is felmerülő feladat, a nagyszámú 
rádiókapcsolatok létesítésének feladata. Igen bonyolult probléma több száz, esetleg néhány ezer 
rádiókapcsolathoz frekvenciát rendelni úgy, hogy azok ne zavarják egymást. A gyakorlatban a frekvencia 
értékeket a használt eszközöktől függő véges halmazból kell választani, és ki kell elégíteni a rádiókapcsolatok 
földrajzi elhelyezkedésétől függő kényszereket. Az alapproblémában a kapcsolatokhoz dZ;,...,], frekvencia 
értékeket rendelünk az f;i,...f, lehetséges értékek közül. A kapcsolatokhoz rendelt frekvenciaértékekre a 
kényszerek a következő alakban írhatók fel: 


; -Ijlz d (11.40) 


Minden lehetséges (/;, f.) kettőshöz rendeljünk hozzá egy binárIS Vv. változót: 


vi hai — 7 
va szú hal tf (11.41) 


A V4 változóknak feleltessük meg a neurális hálózat xx neuronjait, majd a neuronok közti kapcsolatok súlyait 
kell meghatározni. Itt is az  energiafüggvény meghatározásával jutunk eredményre. A probléma 
költségfüggvénye legyen a ki nem elégített feltételek száma. Az ezt reprezentáló energiafüggvény tag a 
következő alakú: 


E-Z [1 Wigjg pt ja 
18. A , 11.42) 


ahol 


Wo 71 ha [7.7 cd 


Wing — 0 egyébként (11.43) 


Az energiafüggvényt, az utazó ügynök problémával bemutatottakhoz hasonlóan, ki kell még egészíteni egy 
taggal, amely minimumpontjában azt garantálja, hogy egy rádiókapcsolathoz pontosan egy frekvenciát 
rendelünk, illetve itt s alkalmazható a neuronok csoportba rendezésével (k-ból 1 neuronok) az utóbbi feltételt 
automatikusan teljesítő módszer. 


4.3. A/D konverter megvalósítása Hopfield hálózattal 


A/D konverterek érdekes megvalósítását mutatta be az alkalmazott hálózat névadója, John Hopfield. Mivel az 
eddigiekben csak kétértékű neuronokkal foglalkoztunk ezért Itt a szerző által leírt folytonos értékű neuronokat 
alkalmazó A/D konverter megoldás digitális neurális hálózattal megvalósított változatát mutatjuk be [Hop86]. A 
hálózat modell itt kiegészül egy analóg bemenettel (a digitalizálandó jel — u), amelyet — hasonlóan a többi 
neuron kimenetének visszacsatolásához — súlyozott kapcsolatokon keresztül vezetünk a neuronok bemenetére. 
Az A/D átalakító költségfüggvénye legyen az átalakítás hibájának a négyzete, és a neuronok bináris kimenetei a 
digitalizált jel bitjet. 


Így a hálózat energiafüggvénye: 
2 
B [e DX A j 
i 


Ebből a hálózat súlyaira a következőket kapjuk: 


(11.44) 
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— aitd 
Wy- 2" (11.45) 
Az analóg bemenetet súlyozó tagokra: 
4 —-—2 (11.46) 
Egy 4-bites A/D konverter látható a 11.9 ábrán. Bár a megoldás nem hódított teret más A/D megvalósítások 


mellett, Jól mutatja, hogy a feladatok milyen széles köre értelmezhető optimalizációs problémaként és oldható 
meg Hopffteld típusú hálózattal. 


11.9. ábra - 4 bites A/D konverter megvalósítása Hopfield hálózattal 





neuronok 


digitalis kimenetek 


Feladatok 


11.1 Tervezzen Hopfield neurális hálózatot, amely megoldja az N-királynő problémát. A logikai feladvány 
lényege, hogy egy NxMN-es sakktáblán kell elhelyezni N királynőt úgy, hogy egyik se álljon másik által ütésben. 


2 
Bizonyított, hogy minden N53 esetre létezik megoldás. Határozza meg egy §  neuront tartalmazó hálózat 
súlyait úgy, hogy a hálózat minden neuronja a sakktábla egy-egy mezőjének felel meg és egy neuron a hálózat 
stabil állapotában akkor vesz fel aktív értéket, ha rajta egy királynő található. 


11.2 Adja meg annak a Hopfield neurális hálózatnak az energiafüggvényét, amely képes megoldani a következő 
gráf partícionálási problémát. Válasszunk szét egy gráfot két egyenlő méretű részgráfra úgy, hogy a köztük 
található élek száma minimális legyen. A hálózat neuronjai reprezentálják a gráf csomópontjait úgy, hogy az 
energiafüggvény által meghatározott súlyokkal rendelkező hálózat stabil állapotában a neuronok aktív értéke 
jelölje az egyik, míg az inaktív érték a másik részgráfhoz való tartozást. 


11.3 Mutassa meg, hogy az aszinkron Hopfield hálózatnak új hamis stabil állapotai jöhetnek létre, ha az 
önvisszacsatoló súlyok értékét növeljük. 


11.4 Mutassa meg, hogy a szimmetrikus súlyokkal rendelkező szinkron Hopfield hálózatnál lehetséges, hogy két 
állapotváltozás után ugyanabba az állapotba kerül a hálózat (2 hosszúságú határciklus). 
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12. fejezet - Hibrid-neurális 
rendszerek 


Láttuk, hogy a neurális hálózatok olyan rendszerek, melyek tudásukat, képességüket mintákból történő 
tanulással nyerik. A neurális hálózatok kialakításánál ezért alapvető fontosságú, hogy egy megoldandó 
problémáról megfelelő mennyiségű és minőségű ismeret adatok (mintapontok) formájában álljon 
rendelkezésünkre. Egy konkrét feladat kapcsán azonban a mintapontokon kívül szinte mindig van további 
ismeretünk 15 a megoldandó feladatról. Az a priori i1smeret felhasználása alapvetően fontos a feladat megoldása 
szempontjából. Az a priori ismeret segít a megfelelő hálóstruktúra meghatározásában, de döntő szerepe lehet a 
megfelelő tanítókészlet, a tanító adatbázis kialakításánál 15. Ennek alapján dönthetjük el, hogy egy feladatról 
mely rendelkezésre álló vagy megszerezhető jellemzők, mérési adatok alapján célszerű a neuronhálót 
megkonstruálni. 


Az a priori! ismeret a mintapontok által reprezentált leképezésről is adhat járulékos információt. Mint láttuk, a 
mintákból való tanulás rosszul definiált feladat, így bármilyen, a mintákon túl rendelkezésre álló ismeret 
felhasználása jobb megoldás elérését segítheti. Különösen fontos az a priori információ felhasználása, ha 
viszonylag kevés mintapont áll a rendelkezésünkre, valamint ha a mintapontok bizonytalan tudást képviselnek — 
pl. a mintapontokat jelentős zaj terheli —, vagy ha a mintapontok nem kellően fedik le a problémateret. 


A járulékos ismeret különböző formában állhat rendelkezésünkre. Így birtokában lehetünk a megoldandó 
problémára vonatkozó bizonyos matematikai összefüggéseknek, vagy ismerhetünk a bemeneti és a kimeneti 
adatok kapcsolatát jellemző bizonyos szabályokat stb. Ilyen a priori ismeret lehet pl. hogy egy regressziós 
problémánál a bemenetek és a kimenetek között monoton kapcsolatnak kell fennállnia, esetleg tudunk valamit a 
bemenetek és a kimenetek közötti kapcsolat trendjéről, vagy Ismerünk valamit a leképezés komplexitásáról vagy 
simaságáról. Hasonlóan, egy osztályozós feladatnál rendelkezésünkre állhat olyan a priori ismeret, hogy a 
minták bizonyos transzformációira (pl. eltolás, forgatás, tükrözés, esetleg adott korlátok közötti nagyítás, 
kicsinyítés stb.) az osztályozásnak invariánsnak kell lennie. Olyan a priori ismeretünk 1s lehet, amely korlátozza, 
hogy milyen tartományban vehetnek fel értékeket az együttesen előforduló bemeneti és/vagy kimeneti adatok. 


A neuronhálók egyik , hiányossága" — legyen a háló bármilyen típusú is —, hogy közvetlenül csak mintapontok 
formájában meglévő ismereteket tudnak hasznosítani. Olyan módszerekre van tehát szükségünk, melyek 
hogy a járulékos ismeretet közvetlenül felhasználjuk a neuronhálók konstrukciójában, vagy közvetve 
hasznosítjuk azáltal, hogy a meglévő minták kiegészítésére további, , virtuális" mintákat generálunk. 


A közvetlen felhasználásnál a járulékos tudás hozzásegíthet a megfelelő háló architektúra, esetleg a háló méret 
minél pontosabb megválasztásához, vagy elősegítheti a  háló-paraméterek kezdeti értékeinek jobb 
meghatározását, nagyságrendekkel megkönnyítve ezzel a megfelelő neuronhálós megoldás elérését. Egyes 
esetekben a megvalósítandó leképezésre vonatkozó formális összefüggések közvetlenül a tanuló eljárásba 
építhetők be. 


A közvetett felhasználásnál a meglévő mintákból a járulékos információk felhasználásával generálunk további 
mintákat, melyek a megoldandó feladatot a problématér olyan tartományain 1s reprezentálni fogják, melyekre az 
eredetileg rendelkezésünkre álló minták nem adnak információt. 


A neuronhálók másik , hiányossága", hogy ugyan a mintapontokból kinyerik a tudást, és így egy feladatot akár 
kiválóan meg 1s tudnak oldani, a megoldás értelmezésében nem segítenek. A neuronháló alapjában véve egy 
fekete doboz, ami a minták által képviselt kapcsolatokat közelíti, és bármilyen jó választ 15 ad egy bemenetre, a 
válaszhoz nem nyújt indoklást. Ez a hiányossága számos alkalmazási területen nehezíti vagy akár meg 15 gátolja 
a felhasználást. Egy orvosi diagnosztikai vagy döntéstámogató rendszerben például hiába ad egy neuronháló 
adott bemenetekre (tünetek) jó választ (diagnózis), indoklás, magyarázat nélkül nehéz elfogadni a háló válaszát. 
A hálóknak ez a hiányossága egyes, pl. biztonságkritikus alkalmazásoknál jelentős hátrány más tanuló 
rendszerekkel (pl. döntési fák) szemben. 


Fontos ezért, hogy a neuronhálók képesek legyenek különböző reprezentációjú ismeret hasznosítására, a hálók 
konstrukciójánál ne csak a mintapontokat tudjuk felhasználni, továbbá, hogy egy megtanított hálóban 
, meglévő" tudás szimbolikus formában 1s kinyerhető legyen és, ezáltal a válaszokhoz magyarázatot 15 tudjunk 
rendelni. 
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előt élésülk 


felhasználni, kezelni, illetve melyekből a tudás szimbolikus formában is kinyerhető a hibrid-neurális 
rendszerek (hybrid-neural systems) (Wer00]. A hibrid-neurális rendszerek a hibrid intelligens rendszerek 
nagyobb családjához tartoznak. Hibrid intelligens rendszereknek nevezzük azokat a rendszereket, melyek a 
mesterséges intelligencia különféle eszközeit, megközelítéseit együttesen alkalmazzák. Hibrid intelligens 
eszközöknek szokás nevezni a lágy számítástechnika (soft computing) különböző (fuzzy, neurális, genetikus) 
megközelítéseit együttesen alkalmazó eszközöket 15. A hibrid-neurális rendszerekben a neuronhálók szerepe 
meghatározó, de nem kizárólagos. Ezek a rendszerek tehát a megfelelő képességüket döntően továbbra 15 
mintapontokból tanulás útján nyerik, de konstrukciójukban a járulékos a priori információ 1s jelentős szerepet 
kap. Azt 15 mondhatjuk, hogy egyes hibrid-neurális rendszerek a különböző ismeret-reprezentációk közötti 
konverzióra 15 képesek. 


A következőkben a hibrid-neurális rendszerekhez tartozó két főbb területtel foglalkozunk röviden. Az első 
területen belül előbb az a priori információ virtuális minták generálásán keresztül történő felhasználásának 
fontosabb kérdéseit tekintjük át, majd arra adunk példát, hogy a Járulékos információ hogyan építhető be 
magába a tanító eljárásba. A második terület a minták alapján történő tanuló rendszerek és a magyarázat alapú 
rendszerek ötvözésének egy viszonylag kiforrott eredményével foglalkozik. A tudás alapú neuronháló 
(knowledge based artificial neural network, KBANN) a megoldandó problémáról szabályok formájában 
rendelkezésünkre álló tudást a kunduló neuronháló (MLP) létrehozásához használja fel, majd az így kialakított 
háló módosítása, pontosítása történik meg a hagyományoshoz hasonló tanuló eljárás során. A KBANN fontos 
jellemzője, hogy nemcsak lehetőséget ad szimbolikus formában meglévő ismeretek felhasználására, hanem azt 
is biztosítja, hogy a megtanított végleges hálóból szabályok formájában kinyerjük a tudást. Az a priori 
információ egy további hasznosítási lehetőségével, nevezetesen azzal, hogy a rendelkezésre álló jellemzők, 
megfigyelések közül milyen szempontok alapján válasszuk ki a neurális megoldás létrehozásánál 
felhasználandókat, a következő, 13. fejezetben fogunk kitérnt. 


1. Az a priori tudás felhasználása virtuális minták 
generálására 


Virtuális minták generálása az a priori tudás felhasználásának az egyik legtermészetesebb módja. Az így 
létrehozott mintákkal kiegészítve a meglévő mintakészletet a hálók konstrukciója az eddig bemutatott 
eljárásoktól semmiben sem tér el. A virtuális mintákon keresztül a megoldandó problémáról további ismereteket 
ún. tárgytartomány tudást (domain knowledge) tudunk a neuronháló által kezelhető formában hasznosítani. A 
virtuális minták lehetőséget adnak arra, hogy a problématér olyan tartományairól 15 legyenek felhasználható 
mintáink, melyeket az eredetileg rendelkezésre álló minták nem fednek le, de azt 15 biztosíthatják, hogy a 
mintakészlet tükrözze a problémában eleve meglévő invartancia tulajdonságokat. 


Az első esetre Jó példa a 7. fejezetben már említett autonóm autóvezető rendszer, az ALVINN [Pom91l]. Mint 
láttuk, ott kameraképek alapján kellett egy neuronhálónak beállítani egy terepjáró kormányát úgy, hogy az 
emberi kormányzás nélkül tudjon közlekedni egy autópályán. A tanító mintakészlet olyan kamerakép- 
kormánybeállítás párokból állt, melyeket egy emberi sofőr által vezetett autó normál menete közben vettek fel. 
Minthogy azonban egy ember , túl Jó" sofőr, a begyűjtött minták extrém szituációkat nem reprezentáltak. Olyan 
helyzetekre tehát nem lehetett ezen minták alapján felkészíteni az automata kormányost, mikor az autó túlzottan 
letért a helyes nyomvonalról. Vagyis a problématér egy jelentős tartományából nem álltak rendelkezésre minták. 
Bár a neuronhálók képesek általánosításra, ez az általánosítás inkább interpoláció, mint extrapoláció jellegű. 
Olyan szituációkra, melyek ismert helyzetek között helyezkednek el, egy háló általában jó válasszal reagál. Ha 
azonban a tanító minták által reprezentált ismert helyzetektől jelentősen eltérő szituáció fordul elő, a háló 
képtelen jó választ adni. Az ALVINN kapcsán az ilyen extrém vagy csak a normál menettől jelentősebben eltérő 
helyzetekre generáltak mintákat, felhasználva a problémáról meglévő a priori tudást. Ismerve a kamerának az 
autóhoz viszonyított helyét, és felhasználva a menet közben összegyűjtött mintákat, megfelelő 
transzformációval olyan virtuális mintákat — kameraképeket — lehetett előállítani, melyek akkor fordultak volna 
elő, ha az autó extrém helyzetbe került volna (pl. áttér az út bal oldalára, lefut az útpadkára, stb.). Az új 
képeknek és az autó ezekhez tartozó helyzetének a felhasználásával ki lehetett számítani a megfelelő 
kormánybeállítás értékeket, vagyis kiegészítő kamerakép-kormánybeállítás párokat lehetett generálni. A 
virtuális mintákkal kibővített mintakészlet tette lehetővé az ALVINN sikerét. 


A bizonyos transzformációkkal szembeni invariancia szintén lehetőséget biztosít a priori ismeret virtuális 
minták generálása által történő hasznosítására. Számos — elsősorban osztályozási — feladatnál a bemeneti minták 
bizonyos transzformációi mellett 1s változatlan választ kell kapnunk. Tipikus példa erre a karakterfelismerés és 
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általában a különböző képi alakzatok felismerése. Egy karaktert akkor is fel kell Ismerni, ha pozícióban eltolt, 
kismértékben elforgatott, korlátozottan nagyított vagy kicsinyített változata kerül egy neurális osztályozó 
bemenetére. Hasonlóan, ha egy vonalas ábrán a vonalak vastagsága bizonyos korlátok között változik, az ábra 
besorolása a lehetséges osztályok egyikébe nem változhat. A transzformációkkal szembeni invarlancia, mint a 
priori ismeret felhasználható virtuális minták generálására. A 7. fejezetben bemutatott kézzel írt karakterek 
felismerésénél az igen Jó eredmény elérése döntően annak volt köszönhető, hogy az eredetileg 60.000 elemből 
álló tanító mintakészletet 540.000 eleműre növelték a képek egy-pixeles függőleges, vízszintes és átlós 
eltolásatval. 


A virtuális minták generálása az a priori tudás hasznosításának általánosan alkalmazható módja [N1y98], 
ugyanis bármilyen mintákból tanuló rendszernél, bármilyen hálótípusnál használható. Hátránya, hogy a tanuló 
eljárást jelentősen lelassíthatja. Ez két okból 15 bekövetkezhet. Egyrészt a jóval nagyobb mintakészlet a tanító 
lépések számát megsokszorozhatja, másrészt a mesterségesen generált minták között nagyobb lehet a korreláció, 
ami szintén a tanítás lassulását eredményez. 


A nagy mintakészlet a szupport vektor gépeknél különösen megnehezítheti a háló konstrukcióját, hiszen az 
SVM számítási komplexitását alapvetően a kernel mátrix mérete határozza meg, és a kernel mátrix egy P x P 
méretű mátrix, ahol P a tanítópontok száma. A következőkben röviden bemutatott virtuális szupport vektor 
eljárás ugyan felhasználja az a priori ismeret alapján létrehozott virtuális mintákat, azonban ezt úgy teszi, hogy a 
jelentősen megnövelt mintakészlet ne növelje meg a számítási komplexitást. 


A szupport vektor gépek tárgyalásánál láttuk, hogy az SVM megoldása a szupport vektorokon múlik. A 
szupport vektorok mindazt az információt hordozzák, ami az osztályozási vagy regressziós feladat 
megoldásához a teljes kunduló mintakészletben megtalálható. Ez a felismerés felveti annak a lehetőségét, hogy 
virtuális mintákat csak a szupport vektorok felhasználásával generáljunk. Egy osztályozási feladatnál a szupport 
vektorok a szeparáló felülethez legközelebb lévő mintapontok. Intuitíve 15 az az érzésünk, hogy nem sok 
haszonnal jár, ha azon mintapontokból generálunk virtuális mintákat, melyek a döntési felülettől távol vannak. 
A felvetés jogosságát valamilyen módon, például kísérletileg igazolni kell. Az ötlet és a kísérleti igazolás 15 
Bernard Schölkopítól és munkatársaitól származik [Sch96b]. A módszer alkalmazása az alábbi lépéseket 
igényli: 


e Tanítsunk meg egy szupport vektor gépet abból a célból, hogy a tanítópontok közül megkapjuk a szupport 
vektorokat. 


e Generáljunk mesterséges mintákat úgy, hogy a megfelelő invartancia transzformációkat a szupport vektorokra 
alkalmazzuk. Ezeket a mesterséges mintákat nevezzük virtuális szupport vektoroknak. 


e Tanítsunk meg egy újabb szupport vektor gépet az előbbiekben létrehozott virtuális szupport vektorokkal 
kibővített szupport vektor készlettel. 


Az eljárás akár iteratív módon több ciklusban is alkalmazható, azonban ekkor ügyelni kell arra, hogy az 
esetlegesen csak lokálisan érvényes invarilancia ne váljék globális invarianciává. 


Az eljárást a 7. fejezetben bemutatott karakter-felismerési problémán tesztelték. A nagyméretű (60.000 
tanítóminta) tanítókészlet miatt, továbbá mivel egy SVM osztályozó kétosztályos feladat megoldására képes, a 
tízosztályos feladatot kétosztályos feladatokként oldották meg. A virtuális szupport vektor módszert úgy 
alkalmazták, hogy minden szupport vektor alapján további 4, 8, illetve 12 virtuális szupport vektort állítottak elő 
[Sch97], [DeCO2]I. A téves osztályozás aránya a 10.000 elemű teszt mintakészleten a három esetben rendre 
0,890, 0,79o, illetve 0,690-ra adódott (ez utóbbi a valaha 15 publikált legjobb érték), miközben a virtuális szupport 
vektorok száma mindhárom esetben kevesebb volt, mint a kiinduló  tanítókészlet elemszáma. 
(Összehasonlításként utalunk a 8.1 táblázatban közölt legjobb értékre, ahol a téves osztályozás aránya 0,996 volt 
mintánként 8 virtuális mintát felhasználva. Ugyanakkor meg kell jegyezni, hogy a kétféle megközelítésben 
felhasznált minták számát nehéz összevetni, mivel a 7. fejezetben bemutatott megoldás az eredeti 10 osztályos 
feladatot egyben oldotta meg, míg a virtuális SV módszerrel a problémát különálló kétosztályos feladatokra 
bontották.) 


2. Az a priori tudás beépítése a tanuló eljárásba 


Az a priori információnak az előbbiektől eltérő felhasználási lehetősége, ha az információt közvetlenül beépítjük 
a tanuló eljárásba. A probléma általános felvetése Yaser Abu-Mostafatól származik, aki a járulékos 
információnak a tanuló eljárásba való beépítését, mint lehetőséget bevezette [Abu90], [Abu95]. Az általa 
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megfogalmazott , utalásokból" történő tanulás (learning from hints) tulajdonképpen mindazon ismeretnek a 
tanuló eljárásba való beépítését jelenti, mely ismeret nem mintapontok formájában áll rendelkezésre. Ebben az 
értelmezésben — még ha csak közvetve 15 —, de az előbbiekben tárgyalt virtuális mintagenerálást 15 e körbe 
tartozónak kell tekinteni. 


Azt a megközelítést, hogy a priori információt közvetlenül beépítünk a tanuló eljárásba valójában már korábban 
is alkalmaztuk. A tanuló eljárásba bármilyen járulékos információ beépítése legkönnyebben a 
kritériumfüggvény módosításán keresztül lehetséges. Amennyiben az optimalizálandó kritériumfüggvény 
nemcsak egy valamilyen értelemben vett hiba (veszteség, kockázat) minimalizálását fogalmazza meg, hanem 
járulékos ismeretekből származó feltételeket is megszab, az optimalizáló eljárás eredményeképp a járulékos 
ismeretek 1s , beépülnek" a megoldásba. Az előzőekben már alkalmazott regularizációs eljárások valójában pont 
ezt a megközelítést alkalmazzák. A , valódi" kritériumfüggvényt kiegészítjük egy regularizációs taggal, ahol ez 
a tag a tanító mintákon túl rendelkezésre álló ismeret figyelembevételét teszi lehetővé. Simasági feltétel 
beépítésére pl. már több megoldást is láttunk. Valójában a szupport vektor gépeknél alkalmazott 
súlyvektorhossz minimalizálási feltétel 15 egy siímasági feltétel. A CMAC hálónál alkalmazott súlysíimító 
regularizáció (Id. 5.2 alfejezet) 15 abból a feltételezésből (vagy a priori információból) indul ki, hogy azt várjuk, 
hogy a háló válasza a tanítópontok között minél kevésbé legyen változékony, és hirtelen ugrások a mintapontok 
közötti tartományokban ne forduljanak elő. A sima megoldás preferálása, mint általános cél — miközben 
természetesen a megoldás döntően a mintapontok által szolgáltatott ismereten kell hogy alapuljon — szintén a 
priori ismereten alapul, nevezetesen azon ismereten, hogy a természetben inkább sima leképezések fordulnak 
elő. 


2.1. Monoton válaszú kernel regresszió 


A simasági feltételen túl számos további feltétel megfogalmazása alapul a priori információn [Lau06]. Ilyen 
feltétel lehet, hogy egy regressziós feladatnál a megoldás monotonitását előírjuk. A monoton LS-SVM 
regressziós megoldásra találunk példát [Pel04]-ben. A 6. fejezetben bemutatott LS-SVM . optimalizálási 
problémához egydimenziós esetben még a következő feltétel megfogalmazása adódik: 


wialjewelra] ha rcxa ja1,.P-1, (121) 


ahol x; jelöli az SVM bemenetét, Y"9Úx pedig a megfelelő választ. A járulékos információ a tanító eljárásba úgy 
épül be, hogy a Lagrange kritérium módosul: 


tíw bem, b - zarta zge-e Íw "p(xitb-te -di 
SB i HE " 1 
efdwrolxadewela]] AAJD) 


Látható, hogy a szokásos Lagrange együtthatós tag mellett egy újabb tag jelent meg, amely szintén Lagrange 


multiplikátoros formában veszi figyelembe a monotonitásra vonatkozó feltételeket, ahol a 1). együtthatók az 
új Lagrange multiplikátorok. 


Más a priori ismeretet tükröző feltételek hasonló módon fogalmazhatók bele a tanuló eljárásba (a kinduló 
kritériumfüggvénybe). Az eljárás hátránya, hogy minden újabb formálisan megfogalmazott a priori 1smeret a 
teljes optimalizálási feladat származtatását igényli, ami egyes esetekben komoly matematikai nehézségekkel 
járhat. Az így kapott eljárások hatékonysága tehát jelentős mértékben függ attól, hogy milyen matematikai 
nehézségek merülnek fel az elsődleges, illetve a másodlagos optimalizálási feladatok megoldásánál. A 
monotonitást előíró feltételek figyelembevétele például kvadratikus optimalizálási feladatra vezet annak 
ellenére, hogy a standard LS-SVM-nél csak lineáris egyenletrendszert kell megoldanunk. 


2.2. Tudásalapú szupport vektor gép 


A tudásalapú szupport vektor gépeknél (knowledge-based support vector machines) az a priori tudás a bemeneti 
tér valamilyen korlátozott tartományára vonatkozik. Glenn Fung és munkatársai olyan osztályozós esetet 
vizsgáltak, amikor a bemeneti tér egyes poliéder tartományai teljes egészében az egyik osztályhoz tartoznak 
[Fun03]. Az osztályozási problémát ebben az esetben tehát egyrészt az ismert besorolású tanítópontok, másrészt 
a poliéder tartományok (egyenesekkel, síkokkal illetve hipersíkokkal határolt tartományok) specifikálják. A 
poliéder tartományoknak, mint a priori információnak az osztályozásra gyakorolt hatását illusztrálja a 12.1 ábra. 
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A Fung és Mangasarian által javasolt SVM-ben a megszokott négyzetes hiba helyett egyes normájú hiba 
szerepel a célfeltételben, így a feladat megoldása (hasonlóan az LS-SVM-hez) nem igényel kvadratikus 
programozást, elegendő a létrejövő lineáris egyenlőtlenségrendszert lineáris programozással megoldani. Az 
említett poliéder tartományok ezt a lineáris egyenletrendszert egészítik ki extra egyenlőtlenségekkel. 


Hasonló eljárást dolgoztak ki függvényapproximációs feladatokra is, ahol az a priori információ a függvényre 


vonatkozóan extra korlátokat jelent [Man04]. Az alábbiakban bemutatjuk a lineáris kernel modellt, ami az 
alapfeladatot leírja. 


Mint az eddigi függvényapproximációs feladatoknál most is egy ES függvényt szeretnénk közelíteni az 


plxj-wfxrb (12.3) 


7 
lineáris kapcsolattal az URA a mintapontok felhasználásával. Jelölje a bemeneti mintavektorokat összefogó 
mátrixot 


x ] (124) 


12.1. ábra - Egy kétosztályos osztályozási feladat. (a) az eredeti SVM-mel történő 
megoldás; (b) az a priori tudás (árnyékolt konvex sokszögek, mint az adott osztályhoz 
tartozó területek) figyelembevételével származtatott tudás alapú SVM megoldása 





(a) (b) 
Ezzel a háló válasza az összes tanítópontra a következő formában 1s felírható: 
y- £wtbl , (12.5) 


ahol 1 egy csupa egyesekből álló vektor. Feltételezve, hogy a háló válaszai közelítik a kívánt válaszokat, az 
approximáció hibája közel nulla, vagyis: 


Xw-thl-dzÜ (12.6) 


ahol d a d;, i—1,...,P kívánt válaszokból képezett vektor. Ahogy azt a kernel gépeknél már láttuk, a súlyvektor X 
sorainak lineáris kombinációjaként is előállítható: 


w-X  (12.7) 


Itt § a lineáris kombináció együtthatóinak vektora. (A szokásos Lagrange multiplikátoros felírásnál § a 
Lagrange multiplikátorokból álló vektor.) Behelyettesítve a súlyvektor (12.7) kifejezését a (12.6) összefüggésbe, 
a lineáris kernel gépek szokásos formájú felírását kapjuk: 
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KÍXK 145] -d 50 (12.8) 


Tv Tr . kp s , . . , , FK 9 os , s , 
ahol £Z2 1-2 a lineáris kernel mátrix. A hibát az te R" vektorral elemenként mérjük, és ennek a hibának az 


1-es normáját minimalizáljuk, ahol az 1-es norma jelentése: 


ú E (12.9) 


Az 1-es norma alkalmazásának következménye, hogy a megoldást a szupport vektor gépeknél (6. fejezet) látott 
kvadratikus programozás helyett itt lineáris programozással megkaphatjuk. A megoldandó feladat a: 


7 (a.0.e) - el, FClel, (12.10) 


kritérriumfüggvény minimumát biztosító 8, b és e megtalálása, azzal a feltétellel, hogy teljesülnek az alábbi 
formában megfogalmazott egyenlőtlenségek: 


-e E KÍXXT ju 1b1-dée (12.11) 


A feltételes optimalizálási feladat az alábbi lineáris programozási feladatra vezethető vissza: 
minlarCl e 
[ddocAj 


es KÍX Ke t5bl-d fe, 
-aj aza (12.12) 


Az eddigiek csupán azt illusztrálták, hogy egy kernel regressziós feladatnál a kritériumfüggvény a 6. fejezetben 
bemutatott kritériumfüggvényektől eltérő formában 15 megfogalmazható. A más megfogalmazást az indokolja, 
hogy így a kvadratikus programozási feladat helyett a megoldás lineáris programozással megkapható. A lineáris 
programozás számítási komplexitásban egyértelműen előnyösebb, mint a kvadratikus programozást igénylő 
, klasszikus" SVM. 


A tudás alapú szupport vektor gépeknél járulékos információt 15 beépítünk az eljárásba. A fenti kundulás mellett 
a lineáris egyenlőtlenségek formájában megfogalmazott a priori információ beépítése 15 lineáris programozási 
feladatra vezet. Az a priori információ itt azt jelenti, hogy a bemeneti tér egy poliéder tartományára további 
feltétel fogalmazható meg. 


Ez a feltétel minden olyan sr E" bemenetre vonatkozik, amely nem feltétlenül tartozik a tanítópontok közé, de 
melyre igaz, hogy egy 


Éx5:z (12.13) 


által meghatározott nem üres poliéderen belül található, ahol Be E"" valamilyen együttható készlet, 8€F pedig 


valamilyen valós számokból álló vektor. A feltétel azt fogalmazza meg, hogy a poliéder tartományra az 
approximálandó függvénynek dominálnia kell egy adott lineáris függvényt, vagyis a járulékos információ az 
alábbi implikáció formájában fogalmazható meg: 


Bxszgacwfxih zh" x-r8 (12.14) 


A lineáris függvény h és 5 paramétereit az a priori információ szolgáltatja. A súlyvektor (12.7) összefüggését 
felhasználva az implikáció 


Bx-g -seXxirh zh" x-r8 (12.15) 


formában 1s felírható. Ezt az implikációt kell még a (12.12) lineáris programozási feladathoz hozzávennünk. 


Ennek érdekében az implikációt át kell alakítani lineáris egyenlőtlenségekké. Nem bizonyítjuk, de amennyiben a 
fenti implikációnak van megoldása, akkor az alábbi rendszer EE megoldása ekvivalens az implikáció 
megoldásával: 


Bu-tXv-h-0, -g"u-rh- 8zÜ, uzú (12.16) 
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Az itt megfogalmazott feltételeket hozzávéve a (12.12)-ben megadott lineáris programozási feladathoz 
megkapjuk azt a lineáris programozási feladatot, mely a mintaponto a, 8, e, a és urulékos ismeretet 15 fig uz 0 nbe 
veszi. A minimalizálandó kritériumfüggvény, melynél a minimumot szerint keressük, ahol , az 


alábbi: 


J [abc a u201-17arCVe (12.17) 


a mellékfeltételek pedig: 


-es KÍX,X1e4hl-gze, 
—-a Ég Éa 
-az B urxXxu-héa 


-g uz 8-b (12.18) 


A kapott megoldás meglehetősen speciális esetre érvényes, hiszen lineáris függvényapproximációs feladatból 
indultunk ki és az a priori információ 15 a bemenet lineáris függvényeként van megfogalmazva. Az eljárás 
nemlineáris esetre történő általánosítása viszonylag természetes módon megtörténhet. Ekkor egyrészt a lineáris 
kernel helyett nemlineáris kernellel dolgozunk, másrészt az a priori információt 15 mint a bemenet nemlineáris 
függvényét fogalmazzuk meg. Ennek részleteire azonban itt nem térünk kt. 


A priori ismeretek beépítésére az eddig bemutatott eljárásokon kívül számos további eljárást 15 kidolgoztak. 
Ilyen eljárásokat ismertet pl. [Yu04], [Sun05] és ILe06], valamint az a priori információ beépítésének egy 
további lehetőségére ad példát a következőkben bemutatott súlyozott margójú SVM 1s. 


2.3. Súlyozott margójú szupport vektor gép 


A súlyozott margójú szupport vektor gépeknél ( Weighted Margin Support Vector Machines, WMSVM) [Wu04] 
minden tanító mintához a rendelkezésre álló a priori információ alapján egy konfidencia értéket 15 rendelünk. A 
konfidencia értékek hatása, hogy az egyes tanító minták különböző súllyal vesznek részt az SVM tanításában. A 
súlyozott szupport vektor gép működését lineárisan szeparálható esetre mutatjuk be, de értelemszerűen az 
eredmények megfelelő kernelfüggvény-választást követően érvényesek a nemlineárisan szeparálható esetre 15. 


"7 
Adott egy lineárisan szeparálható tanítóhalmaz URA] a , és minden mintához rendelkezésünkre áll egy" " 04] 


konfidenciaérték, ami a d; kívánt válasz konfidenciaszintjét jellemzi. A konfidenciához olyan intuitív értelmezés 
adható, hogy minél nagyobb egy minta konfidenciája, annál nagyobb margót szeretnénk biztosítani az adott 
mintánál. A súlyozott SVM és a standard SVM közötti különbséget illusztrálja a 12.2 ábra. Az ábrán látható 
kétosztályos osztályozási feladatnál különböző méretű körök és négyzetek jelölik a két osztályba tartozó 
mintapontokat, és a körök, illetve a négyzetek mérete képviseli a mintaponthoz rendelt konfidenciát. Az ábrán 
vékony folytonos vonal jelzi az SVM szeparáló egyenesét. Látható, hogy ez nem veszi figyelembe a 
mintapontokhoz rendelt konfidenciát, míg a vastag vonal olyan elválasztó felületet képvisel, mely a nagyobb 
konfidenciájú pontoknál nagyobb távolságot (nagyobb margót), a kisebb konfidenciájú pontoknál pedig kisebb 
távolságot biztosít. 


A súlyozott margójú megoldás származtatása a standard SVM 6. fejezetben bemutatott származtatásához 


1 
hasonlóan történik. Itt 15 azt a w súlyvektorral és b eltolás értékkel jellemezhető hipersíkot keressük, ahol [e] 
minimális, és ahol az osztályozásra vonatkozó 


fiv]Jdíwíx, 442], j7],...,F (12.19) 


feltételek teljesülnek. A (12.19) összefüggésben szereplő (de (0.1] monoton csökkenő függvény biztosítja, hogy 
a , megbízhatóbb", nagyobb konfidenciájú mintapontok nagyobb hatást gyakorolnak az elválasztó hipersíkra, 
ezeknél a pontoknál nagyobb margót kapunk. 


A részletektől eltekintve a megoldás súlyvektorára a következő adódik: 
L.J 5. "af ] 
W cg VIa 

7 (12.20) 
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gz 


ahol az j együtthatók most 15 a Lagrange multiplikátorok. 


A standard SVM-hez hasonlóan itt 15 származtatható egy lágy margójú változat, ha egy gyengítő változót 
vezetünk be. Ekkor a megfelelő kritériumfüggvény a következő lesz 


12.2. ábra - Az WMSVM működésének a standard SVM-től való eltérésre. A háló 
négyzetekkel illetve körökkel jelölt mintapontok osztályozását végzi, ahol a objektum 
mérete a konfidenciát jellemzi. A vékony vonal az SVM válasza, a vastag fekete vonal a 
WMSVM válasza. 





1 n 
JÓW) - —wíw re elvJé 
2 . (12.21) 


Ennek w szerinti minimumát keressük azzal a feltétellel, hogy 


fiv.hdíw"x, rb)zl-é :i7-], 2, ea (12.22) 


ahol f(/eD1] egy monoton csökkenő és ELED1] egy monoton növekedő függvény és a 28. 1-1.2 ....P 


értékek a gyengítő változó értékei. A szokásos lépések eredményeképpen itt 15 megkapjuk a megoldás 
súlyvektorát: 


w - ar v]x 
mú ., (12.23) 


ahol teljesülnie kell még a következő összefüggéseknek: 


súg (1-0, Oza sgívid, d-Il2,...,F 
81 , (12.224 


2.3.1. A priori tudás beépítése WMSVM-be 


A súlyozott margójú szupport vektor gépeknél a priori tudást egyrészt a konfidencia értékek meghatározásával, 
másrészt virtuális minták generálásával 15 beépíthetünk az eljárásba. A kunduló mintákhoz tartozó konfidencia 
értékek például a mintákat terhelő zajtól függhetnek. A virtuális minták generálása itt nem invarlancia 
transzformációk alkalmazását jelenti, hanem ismeretlen válaszú mintapontok beiktatását, ahol a kívánt válasz és 


si , k 4 a VENETESTTS MNNNENNNÉNÉNETE FldIÍx , 
annak konfidenciája származik az a priori információból. Konfidencia értékként annak a ( ) feltételes 
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valószínűségnek a becslését használhatjuk, amely megadja, hogy egy adott, ismeretlen osztályba tartozó X 
bemenet milyen valószínűséggel tartozhat egy adott osztályba. A módszer jelentősége, hogy bizonytalan a priori 


tudást 15 be tud építeni. Ugyancsak a priori ismeret alapján választhatjuk meg az fb és Eh) függvényeket. 
Ezeknek a függvényeknek a hatása nagymértékben függ a " konfidencia értékektől. Mivel a legtöbb valós 


problémán a " értékekre csak durva becslést tudunk adni és semmilyen elmélet nem támasztja alá a 
komplexebb függvények használatának előnyét, ezért a legtöbb esetben a legegyszerűbb függvényeket, pl. az 


f1-W gs a E04-V függvényeket használhatjuk. 


Példaként tekintsünk egy lehetséges alkalmazást, különböző dokumentumok kategorizálását. A kiinduló 
tanítóhalmaz a már kategorizált dokumentumok halmaza. A virtuális tanítóhalmaz kialakításához szükséges 
konfidencia értékeket a már kategorizált tanítóhalmaz alapján szakértői tudás felhasználásával határozhatjuk 
meg. A szakértők a tanítóhalmazba tartozó dokumentumok alapján olyan szavakat választanak ki, melyek 
szerintük az adott kategóriát jól jellemzik, vagyis egy kiválasztott szó nagy valószínűséggel fordul elő egy adott 
kategóriába tartozó dokumentumokban. Ezeket a szavakat tekintsük kulcsszavaknak. Például, ha a kategória a 
kardiológia, akkor a kulcsszavak a vér, vérnyomás, szív, véna, artéria stb. A jelöletlen dokumentumok 
kategorizálása a kulcsszavak keresésével történik. A konfidencia értékeket többféleképpen is előállíthatjuk. 
Jelöljön x egy adott dokumentumot és c egy adott kategóriát. Az x mintának a c kategóriába tartozását jellemző 


konfidencia legyen egyszerűen lsz , ahol li jelöli, hogy az x dokumentumban az adott kategóriát jellemző 


kulcsszavak közül hány fordul elő, Téli pedig azt adja meg, hogy az adott kategóriát hány kulcsszóval 
jellemzünk (A jelölésnél a kw index a kulcsszóra (keyword) utal.) Azokat a dokumentumokat, melyek egyetlen 
kulcsszót sem tartalmaznak, figyelmen kívül hagyjuk. 


Az SVM konstrukciója ezek után a két tanítóhalmaz együttes felhasználásával történik. Amennyiben az eredeti 
mintahalmaz pontjaihoz is rendeltünk konfidencia értékeket, a két mintahalmaz eltérő kezelésére nincs szükség. 
Ha azonban az eredeti tanítóhalmaz mintáit zajmentesnek, pontosnak tekinthetjük, akkor célszerű, ha ezen 
mintákhoz nem rendelünk konfidencia értékeket (pontosabban ezekhez egységnyi konfidencia értékeket 
rendelünk), vagyis a két mintahalmaz pontjait a kritéruumfüggvényben különbözőképpen vesszük figyelembe. 


ök életbe A 


minta képezi a virtuális mintahalmazt, akkor a következő módosított kritériumfüggvényt célszerű használni: 


JEWI -w nr ező mez elnjő SZÉK 


Itt C az SVM-nél megszokott paraméter, amely a biztonsági sáv mérete és a sávon belülre eső pontok száma 
közötti egyensúlyért felelős, míg az 9" paraméter a két tanítóhalmaz relatív fontosságának beállítására szolgál. 
Értelemszerűen, ha az eredetileg ismert kategóriájú dokumentumok száma kicsi, akkor nagy ? -t érdemes 
választani. Ahogy a valóban kategorizált dokumentumok száma növekszik, úgy érdemes a virtuális tanítóhalmaz 


hatását csökkenteni, hiszen az eredeti tanítóhalmaz , Jobb minőségű". 


3. KBANN, a tudás alapú neurális hálózat 


A tudás alapú neurális háló (Knowledge Based Artificial Neural Network, KBANN) egy lehetséges megoldást ad 
arra, hogy hogyan ötvözhetők a magyarázat alapú és a mintapontok alapján tanuló rendszerek előnyei [Dow9l]. 
A KBANN rövid bemutatása előtt összefoglaljuk a kétféle ismereten alapuló rendszerek legfontosabb előnyeit 
és hátrányait. 


Míg a neuronhálók minták formájában rendelkezésre álló ismeretet tudnak feldolgozni, a magyarázat alapú 
rendszerek egy adott tématerületre — a tárgytartományra (domain) vonatkozó — szimbolikus szabályhalmazzal 
fogalmazzák meg az adott problémáról rendelkezésre álló ismereteket. Például a neuronhálókkal ellentétben egy 
élőlény madár voltát nem rengeteg példán keresztül határozzák meg, hanem egy előre meghatározott 
szabályrendszer — mint tollas-e, van-e szárnya stb. — alapján. A szabályrendszert — amit szakértők állítanak fel — 
a tanuló rendszerek irodalmán belül szokás a tárgytartományra vonatkozó elméletnek, domén elméletnek 
(domain theory) 15 nevezni. A továbbiakban mi 15 ezt az elnevezést fogjuk használni. 


A minták alapján, induktív tanulással (empirikus tanulás, ET) létrehozott és a magyarázat alapú rendszerek 
(MA) alapvetően eltérő tudásreprezentációt alkalmaznak. Mindkét megközelítésnek megvannak az előnyei és 
hátrányai, melyeket a 12.1. táblázatban foglalunk össze. Az előnyös tulajdonságokat (--), a hátrányosakat (-) 
jellel jelöltük. Ha összevetjük a két tudásreprezentáció problémáit Jól látható, hogy a két megközelítés kiegészíti 
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egymást, azaz a kombinációjukból adódó hibrid-neurális rendszerben az egyik reprezentáció erősségetivel 
felülkerekedhetünk a másik gyengeségein. A minták formájában meglévő tapasztalati tudás és a szabályok 
formájában rendelkezésre álló domén elmélet együttes felhasználására alkalmasak a tudás alapú neuronhálók 
használja fel: a feladatról rendelkezésünkre álló szabálykészlet alapján olyan háló architektúrát és kunduló 
hálóparamétereket (súlyokat) határoz meg, hogy a kiinduló háló leképezése teljes mértékben megegyezzen a 
bemenetek és kimenetek között szabályok formájában megfogalmazott kapcsolattal. 


12.1. táblázat - A különböző tudásreprezentációs tanuló rendszerek egymást kiegészítő 
erősségei (t) és gyengeségei (-) 


Magyarázat alapú rendszerek Vüntzkből tötténő ésűúló 


(MA) rendszerek (ET) 


(-) teljes és korrekt domén 
elméletet tételez fel (bizonyos 
feladatokra a domén ismeret 
megfogalmazása nemcsak hogy 
nehéz, de egyenesen lehetetlen) 


(3) az ET rendszer nem vagy 
alig igényel elméleti tudást 


(-) valójában nem tanul, 
lényegében csak  átfogalmaz, 
ezért a kunduló elmélet hibáit 
nem képes kijavítani 


(4) az ET rendszer képes új 
ismereteket befogadni, képes 
tanulni 


(-) a domén elméletekre nem 
jellemző a "fokozatos 
romlás": ha a tudáshatárt átlépi 
a feladat, a megoldóképesség 
drasztikusan romlik, emellett a 
tudáshatár átlépésének 
detektálása 15 problematikus 


(4) az ET rendszer "fokozatosan 
romlik" 


(-) a domén elmélet túl 
terjedelmes/bonyolult is lehet 
(idő/memória korlátok) 


(3) egy megtanított ET rendszer 
gyors működésű 


(-) a domén elméletet valakinek I (-) az ET rendszer kevés domén 
meg kell fogalmaznia ismeretet igényel 


(-) a példákban található 
álkorrelációk helytelen 
osztályozáshoz vezethetnek (pl. 

(4) az MA nem használja alha a példahalmazban minden 

példák közötti korrelációt madár fekete tollazatú, a 
rendszer kikövetkeztetheti, hogy 
minden madárnak feketének kell 
lennie) 


(tt) , a domén  tudásbaní[(-) sok pozitív példa mellett 15 
tetszőleges mennyiségűl elképzelhető, hogy a kivételes 
alhalmazt/altudást tudunk J eseteket nem, vagy nem kellő 
reprezentálni (speciális, Imértékben reprezentálják a 
kivételes esetek kezelése) 


(4) a kontextus szerepelhet al(-) az osztályozás szempontjából 
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szabályrendszerben lényeges vonások 
környezetfüggőek lehetnek, a 
kontextust valahogy 


reprezentálni kell 


(-) bármelyik objektum elvileg 
végtelen sok különféle 
attribútummal írható le, a 
lényegi vonások kiszűréséhez 
tudás kell 


(t) a releváns tulajdonságokat a 
domén tudás specifikálja 


(-) kezdeti primitív 
(4) a bonyolultabb jellemzők altulajdonságokból bonyolultabb 
végállapot és kezdeti szabályok! jellemzők kinyerése segítené a 
közötti "köztes következtetések" Itanulást, ez a kinyerés azonban 
nem automatizált és garantált 





A szabályok ugyanakkor nem szolgálnak teljes ismerettel a megoldandó feladatról, további ismeret mintapontok 
formájában áll rendelkezésünkre. Ezt az ismeretet használjuk fel a kunduló háló finomítására, paramétereinek 
pontosabb beállítására, sőt esetleg a kunduló háló struktúrájának a megváltoztatására 15. A KBANN nemcsak 


§.g. 


megtanított hálóból a kiinduló szabályokhoz hasonló szabályok formájában szimbolikus ismeretet 1s kinyerjünk. 


3.1. Apriori tudás használata a kezdeti hipotézis kialakításában: 
KBANN 


A KBANN konstrukciója három fázisból áll (Id. 12.3. ábra). Az első fázis a kezdeti domén elmélet alapján egy 
kunduló neuronháló — MLP — létrehozása. Ez a fázis a szimbolikus szabályokat egy neurális hálózatba 
konvertálja. Az így keletkezett hálózat garantáltan ugyanazt a választ adja, mint amit a kunduló szabályok 
adnának. 


A második fázisban a létrehozott neuronhálót tanítóminták segítségével tanítjuk. A tanítás módja alapvetően 
megegyezik az MLP tanításánál bemutatott eljárással, tehát itt ií5 a hibavisszaterjesztéses algoritmust 
alkalmazzuk. Ugyan a tanítási algoritmus a megszokott, ezt azonban nem egy szokványos hálón végezzük, 
hanem a szabályokból nyert, a domén tudásból létrehozott speciális struktúrájú hálón, és ez a tanításra bizonyos 
korlátokat ad (Id. bővebben a 12.3.4 alfejezet). 


12.3. ábra - Az információ terjedése KBANN-ban 
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A végső, harmadik fázis során történik meg a módosított neuronhálóból a módosított szabályrendszer kinyerése. 
A kapott elméleti tudás már emberi elemezésre 15 alkalmas, megoldva ezzel a neurális hálók egyik legnagyobb 
hiányosságát. A kapott finomított domén tudást akár kiinduló tudásként ií15 alkalmazhatjuk egy következő 
KBANN-ben, így az információ visszaáramoltatással egy iterációs alkalmazáshoz 1s juthatunk. 


Az ábrán az ellipszisek adatstruktúrákat, a négyszögek algoritmusokat jelentenek. A dupla ellipszisek a kiinduló 
ismereteket jelölik. A KBANN tehát kétféle kiinduló ismeretből építkezik: egyrészt a kezdeti domén tudásból, 
másrészt tanító mintapontokból. Az alábbiakban röviden bemutatjuk a KBANN  alapváltozatának a 
konstrukciójához szükséges lépéseket. Az alapváltozaton kívül a KBANN-nek számos továbbfejlesztett 
változatát dolgozták kt. 


3.2. Az elméleti tudás neurális hálózatba történő korvertálása 


A KBANN szimbolikus szabályokból indul ki, a szabályokat egy többrétegű perceptron neuronjaira képezi le. A 
szabály "" neuronháló konverzió a szabályokra nézve meglehetősen szigorú korlátokat állít fel. A KBANN csak 
Horn klózként megfogalmazott szabályokból tud hálót építeni. A Horn klóz az ítéletkalkulus fontos fogalma. 
Egy Horn klóz literálok diszjunkciója, ahol a literálok közül legfeljebb egy lehet pozitív. Egy literál egy atom 
vagy annak negáltja, ahol az atom az ítéletkalkulus osztatlan szintaktikai eleme. (Részletesebben Id. [Rus05 ]). 


A KBANN által felhasználható szabályok a Boole-algebra nyelvén 15 megfogalmazhatók. E szerint egy szabály 
olyan logikai kifejezés, amely bemeneti logikai változók konjunktív és diszjunktív kapcsolataiból áll. A logikai 
kifejezés bemenetére kerülő logikai változók képezik a szabályok feltétel részét, a logikai kifejezés kimenete 
pedig a szabály következmény részét. A kiinduló szabályok olyan logikai kifejezéseknek felelnek meg, ahol a 
kimeneti logikai változó a bemeneti változók ÉS kapcsolatainak VAGY kapcsolataként írható fel (ezt szokás 
konjunktív normál alaknak (conjunctive normal form) 15 nevezni). A bemeneti logikai változók ponált vagy 
negált értékkel szerepelhetnek. A KBANN kiinduló szabályainál korlátozás még, hogy a szabályok csak 
aciklikus szabályok lehetnek (azaz nincs olyan szabály, vagy szabály kombináció, ahol egy szabály 
következménye a feltételben 15 szerepel). Az aciklikusság követelménye azonban nem zárja ki a hierarchikus 
szabályok alkalmazhatóságát, amikor egy szabály következményrésze egy következő szabály feltételrészeként 
jelenik meg. A hierarchikus felépítésű szabályrendszerből kiindulva a konverzió rejtett neuronokat 1s tartalmazó 
többrétegű hálót eredményez. 


A KBANN konstrukciója a következő 7 fő lépésből áll. 
1. Szabályok átírása 
A fentiekben definiált szabályok közvetlenül nem minden esetben konvertálhatók neuronokká. A konverzió úgy 


biztosítható, ha előbb a szabályokat olyan formába írjuk át, hogy a diszjunkcióknál a feltételrészben csak 
egyetlen logikai változó szerepeljen. Ez az átírás lehetővé teszi a szabályok egyértelmű konvertálását neurális 
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háló elemekre (neuronokra) és egyben tisztázza 15 a hierarchikus struktúrát. Tekintsük a következő példát: 
legyen a kunduló szabályrendszerünk: 


A :— B, C, D 

A :— D, E, F, G 

ahol A B.C,D,E,F és G mind logikai változók. A fenti szabályrendszer Boole-algebrai megfelelő felírása: 
A-BCD4$DEFG 


vagyis az A kimeneti logikai változó akkor vesz fel IGAZ értéket, ha VAGY a BC és D bemeneti logikai 
változók mindegyike IGAZ értéket vesz fel (ES kapcsolat) VAGY D,E,F és G mindegyike vesz fel IGAZ 
értéket. 


A szabály 7 háló konverzióhoz a következő átírásra van szükség: 


A. ss A! 

AT sz B; €;.D 

A sze AT 

A"":— D, E, F, G 


vagy Boole-algebrai felírással 


A - AJAT! 
AT s BOD; 
A!! - DEFG 


Az átírás azért szükséges, mert másképpen nem tudjuk a szabályból származtatott neuronok eltolásértékeit 
(bias), úgy beállítani, hogy a konverzió eredményeképpen létrejött háló megfeleljen a szabály logikai 
működésének. 


2. Szabálystruktúra leképezése neurális hálóvá 


A második lépésben az előzőekben már átírt szabályok mindegyikét egy-egy neuronra képezzük le. A neurális 
háló bemenetei a szabályok feltétel részének, az előzményeknek, míg a kimenetei a végső következményeknek 
felelnek meg. A fentiekből már jól látszik, hogy a neurális háló rejtett elemei a szabályrendszer közbülső 
következményeit reprezentálják. 


A szabályok nemcsak az egyes neuronok felépítését (bemenetek száma) határozzák meg, hanem a neuronok 
súlyait és az eltolásértékét 15. A súlyok megválasztása — amit a későbbiekben ismertetünk — a konvertálandó 
szabály típusától függ. A kapott hálózat már megfelel a kezdeti domén elméletnek: a kimenete csak akkor aktív, 
amikor a szabályrendszer alapján 1s igaz az állítás. 


3. Címkézés 


Címkézést hajtunk végre, melynek eredményét a későbbi lépések hasznosítják. A címkézés során minden rejtett 
és kimeneti neuronhoz egy, a neuron rétegének megfelelő számot (címkét) rendelünk úgy, hogy a bemenettől 
azonos , rétegtávolságra" lévő neuronok azonos számot kapnak. (A bemenetek a 0. réteget képviselik.) A 
címkézés végrehajtásához szükséges, hogy minden érvelési pálya teljes legyen, azaz minden közbülső konklúzió 
egy olyan pályán legyen, amely egy vagy több bemeneti egységből egy vagy több kimeneti egységhez vezet. 
Nem teljes pályák esetén ezeket a szabály -"" neuronháló konverter kiegészíti igen kis súlyú kapcsolatok 
bevezetésével. 


4. Rejtett egységek hozzáadása a felhasználó által specifikált szinteken 


Ahhoz, hogy a neurális hálónk a tanulás során az eredeti domén tudáson túlmutató új kapcsolatokat tudjon 
megtanulni, szükség lehet rejtett egységek hozzáadására. Mivel a hozzáadott rejtett egységekre nem mindig van 
szükség (a kezdeti információkészlet elegendő), ezért ez a lépés opcionális. 
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5. Bemeneti egységek hozzáadása 


Ha elfogadjuk, hogy a domén elmélet csak közelítőleg helyes, vagyis lehetnek olyan bemenetek, melyek a 
kimenetekre hatnak, de melyek nem szerepelnek a szabályokban feltételként, akkor a szabályokban nem 
szereplő bemeneteket, mint új hálóbemeneteket a kiinduló hálóhoz hozzá kell adnt. 


6. Szabályokban nem specifikált kapcsolatok hozzáadása szomszédos szinteken 


Ebben a lépésben a címkézés eredményének felhasználásával a hálóba újabb éleket (kapcsolatokat) iktatunk, 
melyekhez nulla kezdeti súlyértékeket rendelünk. A kapcsolat beiktatása lehetővé teszi, hogy a későbbi, minták 
alapján történő tanítás során ott valóban érdemi kapcsolat alakuljon ki, a nulla kezdeti érték ugyanakkor azt 
biztosítja, hogy a beiktatást követően a háló által megvalósított leképezés az eredeti szabályrendszer által 
meghatározott leképezéshez képest ne változzon. 


Az új élek beiktatása az alábbi elv szerint történik. Kössünk össze egy-egy éllel minden (n-1) címkéjű egységet 
(bemenetet vagy neuront) minden (71) címkéjű egységgel. Az összeköttetések beiktatásánál a 4. és az 5. lépésben 
beiktatott bemeneteket illetve rejtett neuronokat 15 vegyük figyelembe. 


7. Súlyok perturbálása. 
Módosítsuk a háló összes súlyát úgy, hogy mindegyikhez hozzáadunk egy kisértékű véletlen számot. A 


kismértékű módosítás nem változtatja meg érdemben a háló leképezését, de elegendő ahhoz, hogy a háló 
későbbi tanításánál bizonyos szimmetria-kialakulásból adódó problémákat elkerüljünk. 


12.4. ábra - Mintapélda KBANN kialakítására 





a kü B, Ú fe tenyt B, hus (És — ss 1 nem J , 

B - D, E B — B" I :— nem K, L. 

B — F, G, HF. B m B" " 

G —- I, nem J. B" :— D; E 

I —- nem K, L. sze Eg S "Hi 
(a) (b) 
elt Ég 

A - a 


c 
konjukció zZ Mg b. neuron 
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12.1 példa 


A 12.4 ábrán bemutatott példán végigkövethetjük a KBANN konstrukciójának lépéseit. 
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Az ábra (a) és (b) ablaka a kezdeti domén elméletet megadó szabályokat mutatja az eredeti (a) és a konstrukció 
által megkövetelt átírt (b) formában. A (c) és (d) ablak illusztrálja a szabályok neuronhálóba való átültetését. 
Látható, hogy egy olyan többrétegű hálóarchitektúrát kapunk, amely nem teljesen összekötött, hiszen a 
bemenetek és a neuronok, illetve az egyes neuronok közötti összeköttetéseket a kunduló szabályok határozzák 
meg. Az (e) ablakban a struktúrabővítés látható, itt egy rejtett egységet és két bemeneti egységet adunk a 
hálóhoz. Ezen az ábrán láthatók a címkézések 15, ahol számozás a bemenettől indul és a címkék a bemenettől 
számított leghosszabb út hosszúságát reprezentálják. Az (f) ablakban a nulla súlyú extra élek felvétele látható. 
Figyeljük meg, hogy a később hozzáadott egységeknek a hálózat többi eleméhez való hozzákapcsolása szintén 
megtörténik. 


3.3. Szabály neuron konverzió 


A szabályfordítás egyszerűsítéséért feltesszük, hogy csak bináris értékű bemenetekkel kell számolnunk. Mivel a 
többértékű jellemzők átalakíthatók bináris jellemzők logikai kapcsolatává, ezért a fenti egyszerűsítés nem jelent 
korlátozást. Könnyen belátható, hogy a konjunktív és a diszjunktív szabályok a 12.5 (a) illetve (b) ábrán látható 
módon konvertálhatók neuronokká. 


12.5. ábra - Szabálykonverzió. Konjunktív (a) illetve diszjunktív (b) szabály leképezése 





B..ss Br GC; Br ROTT]. B:zB. A:C. ArsD. AZÉ, 


Az ábra olyan neuronokat mutat, melyek a szokásos módon a bemenetek súlyozott összegét képezik, majd az 
összegre egy szigmoid típusú nemlinearitást alkalmaznak. A konverzió során a ponált bemeneteket (pozitív 
feltételek) azonos w:0 súlyokkal, a negált bemeneteket (negált feltételek) pedig —w súlyokkal vesszük 
figyelembe. Ha a feltételezésünknek megfelelően bináris bemenetekkel dolgozunk (vagy legalább azt 
biztosítjuk, hogy a bemenetek közel 0 vagy közel 1 értéket vegyenek fel) és a kimeneteken is közel bináris 
értékeket szeretnénk kapni, akkor logisztikus szigmoid függvényt kell alkalmaznunk. A w súly értékét — 
megfelelő feltételek betartása esetén — viszonylag egyszerűen, elemi számítások felhasználásával határozhatjuk 
meg. A részletek bemutatásától eltekintünk csak a feltételeket és az eredményt adjuk meg. 


Tételezzük fel, hogy az egyes bemenetek és kimenetek vagy aktív vagy inaktív állapotban vannak. Aktív 


állapotról akkor beszélünk ha a megfelelő érték a [61] intervallumban, inaktív állapotról pedig, ha a [DC] 


intervallumban van, ahol ": az a minimális aktiváció, ami mellett egy egység még aktívnak és § az a 


maximális aktiváció, ami mellett az egység még inaktívnak tekinthető. Alkalmazzuk a következő logisztikus 


j ; (3)- —— 7 bt : gp r r 
szigmoid függvényt: je TT , ahol c olyan konstans, melynek értéke a szigmoid függvény x-0-hoz tartozó 
meredekségét határozza meg, és jelölje K; a szabály ponált feltételeimek, Kv a negált feltételeinek, K- Kp-k Ky 
pedig az összes feltételnek a számát. Megmutatható, hogy ha ezeket a feltételeket betartjuk és a ELESETT 
valamint a 8"! feltételek is teljesülnek, akkor a súlyértékre a következő korlátokat kapjuk: 

[1] 
LESTE 
Ke 


2 (12.26) 
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2 A22T 


Ha w értékét a (12.26) és a (12.27) összefüggéseknek megfelelően választjuk meg, a konjunktív szabályok 
konvertálásánál 


K-I 
—— 4 
2 , (12.28) 


HE 


a diszjunktív szabályok konvertálásánál pedig 


z 


Hy 


— 2 (12.29) 


eltolásértéket (bias) kell alkalmaznunk. 


3.4. A KBANN háló finomítása 


A KBANN háló tanítása hibavisszaterjesztéses eljárással történik. Azonban a speciális hálókonstrukció és 
kezdeti súlybeállítás miatt a KBANN esetében célszerű a standard hibavisszaterjesztéses eljárást kismértékű 
módosítása. 


A KBANN háló tanításánál a speciális helyzetet az idézi elő, hogy a neuronok bemenetei és kimenetei 0-hoz 
vagy 1-höz közeli értékeket vesznek fel. Egy szigmoid nemlinearitással felépülő neuron kimenetén akkor 
kapunk közel 0 vagy 1! értéket, ha a szigmoid telítéses szakaszán vagyunk. A telítéses szakaszon viszont a 
szigmoid függvény deriváltja közel 0, így a súlymódosítás, amely a hiba és a szigmoid deriváltjának a 
szorzatával arányos, még akkor 15 nagyon kicsivé válhat, ha egyébként a kimeneten a hiba nagy. A szigmoid 
aktivációs függvénnyel dolgozó MLP-knél ez a jelenség természetesen mindig felléphet, de komolyabb 
következménye csak akkor van, ha a telítéses szakaszon való tartózkodás a háló , normál" működésének a 
jellemzője. A jelenség következménye, hogy a háló nem vagy nagyon lassan tanul, annak ellenére, hogy a 
bináris kimeneten épp a kívánt válasszal ellentétes választ kapunk (0 helyett 1-et vagy fordítva), tehát a hiba 
nagy. A KBANN esetében ez a szituáció már a kiinduló hálónál is előfordulhat, így a háló súlyain a 
hagyományos hibavisszaterjesztéses algoritmus már keveset változtat, függetlenül attól, hogy a háló működése a 
tanító minták alapján helyes vagy sem. Ezért a KBANN esetében általában a hibavisszaterjesztéses algoritmus 
Hinton-féle módosított változatát használjuk [H1n89]. Ebben a hagyományos négyzetes hibafüggvény helyett a 
keresztentrópia hibafüggvényt használjuk: 


id 


efwi -— e [ddníy ) -(1- d, jin -g.1] 


va (12.30) 
ahol 
d az i-edik neuron számára előírt 
kívánt válasz 
37 Íw) a neuron kimeneti értéke 


A keresztentrópia hibafüggvény alkalmazása azt eredményezi, hogy a hibaviszszaterjesztéses algoritmusban a 


gradiens számításból származó 77 ""8m () értékek (Id. az 4. fejezetben a (4.6), (4.12) és (4.14) összefüggéseket) 
akkor sem adnak közel nulla értéket, ha a szigmoid függvény telítéses szakaszán vagyunk. Ez jól látható a 12.6 
ábrán. Az ábra bináris kívánt választ feltételezve ő alakulását mutatja a kimeneti hiba függvényében. A 
szaggatott vonal a szokásos négyzetes hibafüggvényre, a folytonos vonal a keresztentrópia hibafüggvényre 
érvényes Óó-t mutatja. Ezt az eredményt könnyen származtathatjuk, ha a (12.30) összefüggéssel megadott 
kritérriumfüggvény alapján meghatározzuk a hibavisszaterjesztéses algoritmus megfelelő 0ó-ira vonatkozó 
összefüggéseket. 
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A KBANN tanításánál a standard hibavisszaterjesztéses eljáráshoz képest egy további módosítás alkalmazása 
célszerű. Mivel a tanuló eljárás során a háló kunduló súlyai megváltoznak, a háló által reprezentált szabályok 1s 
változni fognak. Ha a kiinduló szabályrendszer kellően megbízható, azt szeretnénk, ha az eredeti szabályok a 
tanítás után 15 érvényesek maradnának, a tanítás következtében pedig esetlegesen további szabályok lennének 
megfogalmazhatók. A kiinduló szabályok csak akkor maradnak érvényben, ha a kiinduló hálóarchitektúra rész 
súlyai nem módosulnak jelentős mértékben. 


12.6. ábra - Kimeneti neuron származtatott hibája keresztentrópia (folytonos) és 
négyzetes (szaggatott) hibafüggvény mellett 


keresztentropia (folytonos) es negyzetes hibatüggvény ó 
származtatott hibája 
1 — 


0.8 di 
0.6 Fedl 
0.4 kés 


; a 
0.21 / A 5 
L.J ea az 1. 





9 02 0.4 0.6 0.8 1 


kimeneti hiba (£) 
Ennek biztosítására a kritériumfüggvényhez egy regularizációs tagot vehetünk hozzá, amelynek szerepe a 


kunduló súlyok jelentős módosításának megnehezítése. A regularizációs tag egy olyan büntető tag, mely az 
eredeti súlyok (wn) megváltozását bünteti. 


[187 — Me] 
sélwi— 
KLTE (12.31) 


Ekkor a kritériumfüggvényünk a következő lesz: 
ahol C(w) a (12.30) összefüggéssel megadott eredeti kritériumfüggvény, 4 pedig a regularizációs együttható. 


3.5. Szabályok kinyerése - finomított domén elmélet 


A szabályok kinyerése fázis arra szolgál, hogy a most már mintákkal is tanított hálóban , meglévő tudást" 
szabályok formájában 15 meg tudjuk fogalmazni. Ez a fázis teszi lehetővé, hogy a háló válaszához magyarázatot 
is tudunk rendelni. A szabálykinyeréssel visszatérünk a kunduló tudás reprezentációra azzal a különbséggel, 
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hogy kezdetben a szabályok egy kiinduló domén ismeretet tükröztek, az eljárás végén kinyert szabályok viszont 
már a tanítómintákból származó ismeretet 15 tartalmazzák. 


Az alább részletezett szabálykinyerő módszer két fő feltételezéssel él. Egyrészt feltesszük, hogy a KBANN 
tanítása nincs nagy befolyással az egységek szimbolikus jelentésére. Tanított hálókon végzett vizsgálatok azt 
mutatják, hogy a jelentések általában stabilak. Ha mégis történik jelentésváltozás, akkor az , elmozdulás" a 
legkevésbé biztos szabályoknál figyelhető meg. Másrészt feltesszük, hogy a megtanított KBANN-nél majdnem 
l 
minden egység vagy aktív, vagy inaktív (közel 1 vagy 0). Ez a feltevés megvalósítható, hiszen a standard 1re" 
logisztikus aktivációs függvény paramétereinek változtatásával egységugrás függvényt tudunk közelíteni (minél 
nagyobb ac értéke, annál meredekebben vált át a szigmoid függvény az egyik telítési tartományból a másik 


telítési tartományba). 


A két feltevés következménye, hogy egy szabályt ki lehet nyerni csupán a súlyok értékei alapján, megvizsgálva, 
milyen súlykombináció mellett igaz a szabály. Azaz a szabálykinyerő módszerek általános elve olyan 
súlycsoportok keresése, melyeknek az összege meghaladja az eltolás (bias) értékét. (Az eltolásértéket itt szokás 
küszöbértéknek 1s nevezni, ami természetesen adódik a működés jellegéből.) 


A fenti elvek és feltevések jelentős mértékben csökkentik a keresési tér méretét. A továbbiakban egy specifikus 
szabálykinyerő módszerről lesz szó. 


3.5.1. NofM módszer 


Az NofM szabálykinyerő algoritmus az alábbi általános formájú szabályokat keres: 


ha(N a következő M feltétel közül IGAZ) akkor ..., 
Az NofM szabálykinyerő módszer lépései a következők: 
1. Csoportosítás. Minden rejtett és kimeneti egység súlyait csoportosítsuk hasonló értékek szerint. 


Mivel a tanulás során inkább laza súlyklaszterek keletkeznek, mint határozott ekvivalencia osztályok, ezért 
klaszterezésre van szükség. Több különböző klaszterező megoldást ismerünk. 


Az egyik ilyen megoldás az egyesít (join) eljárás, ahol a klaszterek egyesítése, egyelemű klasszterektől kezdve 
történik. A leállás akkor következik be, ha nincs már két olyan klaszter, amely közelebb lenne, mint egy 


megadott küszöb-távolság. Ez a klaszterező eljárás On" számítási komplexitású, ahol n a súlyok száma. 


A másik klaszterező eljárás a rendez (sort) eljárás. Ebben a súlyokat előzetesen rendezzük, majd a rendezett 
súlyokon egylépésben végigmegyünk. A sorbarendezett súlyokat egyenként elővesszük és az aktuális 
klaszterhez adjuk egészen addig, amíg vagy az új súly távolabb esik az aktuális klaszter középpontjától, mint 
egy megadott tf távolság, vagy az új súly hozzáadása egy meglévő súlyt a megváltozott klaszter középponttól t 
távolságon kívülre helyez. Szinte kizárólag a rendez eljárást alkalmazzák, mivel ennek számítási komplexitása 


csak olaogbj) 
2. Súlyok átlagolása. A csoport súlyértékeinek átírása a súlyok átlagértékére. 


3. Bemeneti klaszterek elhagyása. Azon csoportok kizárása, amelyek nem befolyásolják, hogy az egység aktív, 
vagy inaktív lesz. 


Az elimináció célja a befolyással nem bíró klaszterek megkeresése. Ehhez minden klaszter totális aktivációját 
kell kiszámítanunk, majd egy összehasonlításos elemzést kell végezni a többi súlyértékkel. A vizsgált klaszter 
eliminálható, ha a totális értékét hiába adjuk hozzá egyetlen másik szabálycsoport súlyösszegéhez, az nem 
haladja meg a szükséges küszöbértéket. Jó példa az eliminációra a 12.7 ábra. Látható, hogy a teljes C klaszter 
szumma aktivációja (10"F0,1-—1) nem befolyásolja az egység aktív vagy inaktív voltát. 


12.7. ábra - Példa az eliminációra. 
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w—-0  w-ó w-0 ] 


[A KN 


4. Eltolásérték újratanítása. Az eltolásértékek optimalizálása a hibavisszaterjesztéses algoritmussal úgy, hogy 
közben a többi súly értékét nem változtatjuk. 


Erre a lépésre azért van szükség, mert a szükségtelen bemenetek törlése és a súlyok átlagolása megváltoztathatja 
az egység aktivációját. Ennek eredményeképpen egy KBANN háló hiba aránya szignifikánsan nagyobb lehet az 
NofM 3. lépése után, mint az eredeti tanított formájában. 


5. Szabály képezés. Ebben a lépésben minden rejtett és kimeneti egységhez külön szabályt rendelünk, azaz 
, leírjuk" a hálóban található szabályokat. A szabály akkor lesz igaz, ha a súlyozott igaz bemenetek összege 
meghaladja az adott neuron eltolásértékét. 

6. Szabály egyszerűsítés. Ha lehetséges, egyszerűsítsük a szabályokat az eltolásértékek és súlyok 
eliminálásával. Az egyszerűsítés során megállapítjuk a csoportok lehetséges kombinációit, melyek meghaladják 
a szabály küszöbértékét, a biast. Ez a lépés gyakran több szabályt eredményez. Tehát a kezdeti bonyolult 
szabály helyett több egyszerűbb szabályt alkotunk, így az egyedi szabály komplexitását a szabályhalmazból 
eredő komplexitással váltjuk fel. 

Példaként nézzük a következő szabály egyszerűsítését: 

e 7 : — 18-€9,1"AktívElemekSzáma(fA,B,C,D!) 


e 47/7,5" AktívElemekSzáma (E,F,G) 


ahol az AktívElemekSzáma függvény azt adja vissza, hogy az argumentumában szereplő feltételek közül hány 
vesz fel igaz értéket. 


Az egyszetűsítés eredményeképp a következő három szabály fogalmazható meg: 


e 7 : —-— 2 az (A,B,C,D) közül 
e 7 : —-— 1 az (A,B,C,D) közül és 2 az (E,F,G) közül 
. 2 x em EG 


A 12.8 ábra az NofM eljárás lépéseit mutatja egy egyszerű példán keresztül. A kiundulás egyetlen neuron hét 
bemenettel. Az eljárás olyan szabályt eredményezett, amely szerint a következmény igaz, ha három feltétel 
közül kettő igaz. 
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12.8. ábra - Példa az NofM működésére egyszerűsítéssel 


ZT KTK 


- [02 § § 01 - [0.2 8 0.2 c[8 § 68] 
0.2 0.3 7.8] 0.2 uz 8] 
AN /1 / x 
A B C D D jaj Fk G 3 EF 
kezdett KBANN az 1. és a 2. lépés után a 3. lépés után 


A 4. és 5. lépés utan: 
Ha B-AktivElemekSzámaíiC, E, Fh514 akkor Z 


A 6. lépés után: 
Ha Z a [C,E,F! közül IGAZ akkor zZ 


3.6. Új csomópontok dinamikus hozzáadása a KBANN hálóhoz: 
TopGen algoritmus 


A KBANN konstrukciójának eddig bemutatott lépései alapvetően a kiunduló szabályok háló architektúrára való 
konvertálására és az így kapott hálónak a tanítómintákkal történő tanítására vonatkoztak. A konstrukció lépései 
között volt azonban két olyan lépés — a 4. és az 5. lépés —, melyek a kiunduló háló strukturális módosítását tették 
lehetővé rejtett neuronok illetve újabb bemenetek beiktatása révén. Újabb bemenetek beiktatása a priori ismeret 
alapján lehetséges, illetve annak alapján, hogy a tanító adatok olyan új bemeneti komponens(fek)re 1s 
vonatkoznak, melytfek) az eredeti szabályokban nem szerepel(nek). A rejtett elemek közbeiktatása azonban 
további megfontolásokat igényel. A következőkben egy olyan eljárást ismertetünk, mely a strukturális 
módosításoknak egy lehetséges módját adja meg. 


A strukturális módosítás célja, hogy új szabályok megfogalmazása lehetségessé váljon. Erre különösen akkor 
van szükség, ha a kuunduló domén elmélet nem teljes, a kunduló szabályok a tárgytartományra vonatkozó 
szükséges ismereteknek csak egy részét reprezentálják. A KBANN-nel szerzett tapasztalatok szerint az 
általánosítóképesség nagymértékben csökken, ha a konstrukció nem , teljes" domén elméleten alapul, azaz 
hiányoznak szabályok vagy tények a tanult domén elméletből [Tow91]. Ugyanakkor, ha egy , teljes"? domén 
elméletet bővítünk további szabályok hozzáadásával a KBANN hatékonyan kiszűri ezeket a feladathoz nem illő 
szabályokat. 


A TopGen algoritmus több lépésből áll, melyek legfőbb célja a domén elméletre illetve a tanítómintákra 
legjobban illeszkedő háló megkeresése. A TopGen ehhez felderíti azokat a csomópontokat, amelyek a hibás 
kimenetekhez vezetnek és ezen csomópontok ,javításával" és a háló újratanításával iterál a legjobb 
megoldáshoz. 


A TopGen algoritmus lépéseit: 
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1. Válasszuk szét a rendelkezésre álló mintahalmazt tanító halmazra és két kiértékelő halmazra. Legyen a két 
kiértékelő halmaz: validációs-halmaz-1 és validációs-halmaz-2. 


2. Tanítsuk meg a kezdeti KBANN hálót az eddig ismertetett módon és a megtanított hálót tegyük egy HÁLÓK 
nevű listára. 


3. A megállási feltétel (hiba egy adott küszöb alá esik a validációs halmazon, vagy elértünk egy időkorlátot) 
eléréséig: 


válasszuk ki és töröljük a HÁLÓK listáról a validációs-halmaz-2 szerinti legjobb hálót, 


a kiválasztott hálón alkalmazzuk a CsomópontÉrtékelő eljárást, hogy meghatározzunk N olyan csomópontot, 
ahol a leginkább szükség volna a topológia bővítésére, 


készítsük el az N módosított hálót, mindegyiket tanítsuk újra és adjuk a hálókat a HÁLÓK listához, 
rendezzük sorba a HÁLÓK listát a validációs-halmaz-2-n értékelt teljesítményük alapján. 

a HÁLÓK listán csak az M legjobban teljesítő hálót tartsuk meg, a többit töröljük. 

Válasszuk ki a HÁLÓK listáról a validációs-halmaz-2 szerinti legjobb hálót. 


A CsomópontÉrtékelő eljárás alkalmazásának célja, hogy kiválogassuk azokat a csomópontokat (neuronokat), 
melyek módosításával a teljes hálónak a validációs-halmaz-1-re adott válaszai javíthatók. Olyan csomópontokat 
keresünk, ahol a módosítás hatására a javulás a lehető legnagyobb mértékű. A CsomópontÉrtékelő eljárás 
alkalmazása alatt a neuronok aktivációs függvényét ideiglenesen az ugrásfüggvényre cseréljük. Ez a lépés azt 
biztosítja, hogy egy neuron válasza mindenképpen vagy 0 vagy 1! legyen. 


A CsomópontÉrtékelő eljáráshoz definiálnunk kell, hogy mit nevezünk egy adott csomópont szempontjából 
javítható esetnek. Egy eset javítható, ha a háló adott mintára hibás választ ad, de az adott csomópont válaszát 
ellenkezőjére változtatva a háló válasza helyes lesz. A javítható hibákon belül eltérő módon javítható a hiba, ha 
tévesen-pozitív illetve tévesen-negatív esetről van szó. Az alábbi eljárásban ezért a javítható hibák két típusát 
külön-külön számba kell venni. 


A CsomópontÉrtékelő eljárás a következő lépésekből áll: 
1. Értékeljünk minden egyes csomópontot a következők szerint. 


e rendeljünk minden csomóponthoz két számlálót, melyek a javítható-tévesen-pozitív (false positive, FP) és 
a Javítható-tévesen-negatív (false negative, FN) eseteket számlálják. Allítsuk a számlálók kezdeti értékeit 
nullára. 


e menjünk végig egy, a validációs-halmaz-1-be tartozó rosszul osztályozott mintapont esetén a háló összes 
csomópontján, és vizsgáljuk meg, hogy megváltoztatva egy konkrét csomópont kimenetét (0-ról 1-re vagy 
fordítva), a módosított háló már helyesen osztályozza-e az adott példát. Amennyiben igen, akkor az adott 
csomópont megfelelő számlálóját inkrementáljuk. 


e rendezzük sorba a javítandó csomópontokat a számlálók csökkenő értékei szerint. 


2. Válasszunk ki egy csomópontot a sorbarendezett csomópontok közül és módosítsuk a csomópontot úgy, 
hogy a válasza az adott mintánál ellenkezőjére változzon. 


A módosítás többféleképpen elvégezhető: lehetséges a csomópont bővítésével, illetve a csomópont 
egyszerűsítésével. A csomópont egyszerűsítése a standard tanító eljárás következtében 15 bekövetkezhet (például 
egy súly a tanítás hatására nullává válik), bővítés viszont csak strukturális kiegészítéssel lehetséges. Ezért az 
eljárás csak a bővítésre ad megoldást. A szükséges módosítás függ attól, hogy a csomópont konjunktív (ÉS) 
vagy diszjunktív (VAGY) kapcsolatot valósított-e meg. Ennek megfelelően 4 lehetséges esetet kell 
megkülönböztetnünk. 


A csomópont korrekcióhoz javasolt bővítés 4 alapesetét a 12.9 ábra mutatja. Látható, hogy mindegyik esetben 
bővítésre kerül sor. Téves negatív esetek javítása új VAGY kapcsolati ág beiktatásával történhet. Ez VAGY 
kapcsolatot megvalósító csomópontnál a meglévő csomóponthoz egy újabb bemenet beiktatását igényli, míg ÉS 
kapcsolatnál egy új VAGY csomópontra van szükség, ami egyben egy új réteget 1s jelent. Téves pozitív esetek 
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javításához az ÉS kapcsolatot megvalósító csomópontok bővíthetők új bemenettel, míg a VAGY kapcsolathoz 
egy új rétegben egy új ES csomópont beiktatása szükséges. 
12.9. ábra - Példa a TopGen beszúrási algoritmusára 
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3.7. A KBANN háló topológiájának megváltoztatása genetikus 
módszerrel: REGENT 


A KBANN kialakításánál jelentős szerepet kaphatnak a genetikus algoritmusok 15. Minthogy a kiunduló hálót a 
priori szabályokból hozzuk létre, valójában minden egyes neuron egy szabálynak felel meg. A tanítással történő 
háló finomítása — amennyiben csak a háló súlyainak hangolását eredményezi — nem alkalmas újabb szabályok 
beépítésére. Ez csak úgy lehetséges, ha a háló struktúráját 15 módosítjuk, a hálót újabb neuronnal, neuronokkal 
bővítjük. Az előzőekben bemutatott TopGen eljárás a háló strukturális módosításán keresztül igyekszik a háló 
képességét javítani. A KBANN konstrukciójánál bevezetett REGENT (Refining with Genetic Evolution Network 
Topologies) algoritmus a struktúra módosítás egy újabb lehetőségét teremti meg [Op197]. 


A REGENT algoritmus két fázisban dolgozik: egyrészt genetikus kereséssel végignézi a háló topológia terét, 
majd az egyes hálókat hibavisszaterjesztéses algoritmussal tanítja. A REGENT mindkét fázisban felhasználja a 
domén ismereteket. A domén ismeretek a topológia térben való keresést segítik, irányítják, a tanításnál pedig 
biztosítják, hogy Jó kezdő súlyokkal induljon a hibavisszaterjesztéses algoritmus. 


Az algoritmus első lépésként a rendelkezésre álló mintapontokat tanító és kiértékelő (validációs) mintakészletre 
bontja. A validációs készlet szerepe most í5 — mint minden neuronháló tanításnál — az egyes hálók 
teljesítőóképességének, általánosítóképességének meghatározása. 


8. at 


létre. A REGENT eljárás a perturbáció során törölhet egyes neuronokat, illetve újabb neuronokat iktathat be. A 
neuronok törlése vagy beiktatása valójában a kiinduló háló alapját képező szabálykészlet módosítását jelenti. 


A perturbációval előállított kunduló populációra a szokásos genetikus operátorokat, vagyis a keresztezést és a 
mutációt alkalmazzuk. A keresztezés két kunduló hálótopológiából (a szülőkből) két utód hálót hoz létre. Ehhez 
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a kiinduló hálók rejtett neuronjait két csoportba osztja. Jelöljük ezeket A és 8 csoportnak. Így tehát létrejönnek 


A, A égő, A neuroncsoportok. A keresztezés eredményeképp létrejött utódok az 4-8 és a 478 
neuronokat használják fel. Amennyiben több rejtett réteg van, a rejtett neuronok két csoportra bontása 
rétegenként történik a kimenethez közelebbi rétegtől indítva. A rejtett neuronok szétosztását az eljárás úgy 
végzi, hogy törekszik az erős kapcsolatban lévő neuronok együtt-tartására. Mivel ezek a neuronok egy szabály 
neuronhálós megfogalmazásai, ha két csoportba kerülnének, az általuk képviselt szabály semmisülne meg. A 
REGENT keresztezés operátora ezért lényegében szabályok keresztezését végzt. 


Az utódháló összeköttetéseiek meghatározása az alábbiak szerint történik: 


e egy utódháló örökli a "" súlyt, ha a megfelelő (i-edik és j-edik) neuronok is öröklődnek, illetve ha ezek 
bemeneti vagy kimeneti neuronok, 


e a nem bekötött neuronokat a szomszéd szinteken lévő neuronokhoz kötjük közel nulla értékű súlyokkal, 


e beállítjuk a neuronok eltolás (bias) értékét, hogy az egyes neuronok által képviselt szabály által megvalósított 
eredeti logikai kapcsolat (ES illetve VAGY) megmaradjon. 


A keresztezésre mutat példát a 12.10 ábra. Az ábrán a neuronok öröklődése követhető. A szaggatott vonalak a 
közel nulla súlyú kapcsolatokat reprezentálják. 


A REGENT algoritmus során alkalmazott mutáció csak növelni tudja a hálót azáltal, hogy újabb neuront iktat 
be. Mivel minden újabb neuron beiktatása valójában egy újabb szabály beiktatását jelenti, a mutációval a 
szabálybázis bővítése érhető el. Annak oka, hogy a REGENT csak bővíteni képes a hálót az, hogy az eredeti 
KBANN tanítása alkalmatlan újabb szabályok beépítésére, miközben a tanítás eredményeképpen létrejöhet 
olyan háló (a súlyok olyan érték-eloszlása), mely egyes szabályok megszűnését eredményez. 


12.10. ábra - A REGENT eljárásnál alkalmazott keresztezés 


kimenet 


eredeti halok ame- 
lyeket keresztezünk 


bemenet 


kimenet 


a keletkező hálók 


bemenet 





A REGENT algoritmussal működő KBANN hibrid rendszert számos különböző komplexitású feladatban 
alkalmazták. A feladatok egyike az emberi géntérkép elkészítésre irányuló Human Genome Project-hez 
kapcsolódott, ahol a DNS szekvenciákon belül gének helyét kellett megállapítani. A REGENT algoritmussal 
működő KBANN eredményét összevetették az egyszerü KBANN eredményével, illetve a klasszikus 
neuronhálós megoldással. Minden összehasonlításból a REGENT algoritmust alkalmazó megoldás került ki 
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győztesen. A javulás a standard neuronhálós megoldáshoz képest mintegy 20-4096 volt, és még a genetikus 
algoritmus nélküli KBANN-hez képest 1s 10-1590 javulás volt tapasztalható. 


A KBANN-nek számos további módosított illetve kibővített változatát dolgozták ki. A bővítés egyrészt a 
képességek, modellező erő kiterjesztését szolgálják, illetve a szabálykinyerés további lehetőségeit adják meg. A 
modellező erő kiterjesztését az ún. FS-KBANN rendszer [Mac95] biztosítja, ahol a tudásalapú háló nemcsak 
statikus leképezésre képes, hanem végesállapotú rendszer modellezésére 15. Az FS-KBANN esetében a kiinduló 
domén elmélet sem egyszerű szabályok formájában, hanem procedurális ismeret formájában áll rendelkezésre, 
és a neuronháló sem egyszerű előrecsatolt MLP, hanem visszacsatolt háló. A szabálykinyerést döntési fák 
felhasználása segítségével oldja meg a TREPAN algoritmus [Cra96]. 


Bár a KBANN és változatai csak meglehetősen korlátozott formájú domén tudás felhasználását teszik lehetővé, 
jelentőségük, hogy mindezidáig talán a legsikeresebben oldották meg a különböző reprezentációjú ismeretek 
együttes felhasználását. 
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Neurális hálózatok segítségével elvileg csaknem tetszőleges modellezési, feldolgozási feladat megoldható, ha 
kielégítő mintahalmaz áll rendelkezésünkre, amely tartalmazza a keresett információt. Nincs másra szükség, 
mint megtalálni a megfelelő típusú és architektúrájú hálózatot, majd a minták segítségével tanítani. Ezen 
problémákkal, pl. a hálózattípus és méret megválasztásával, a megfelelő tanítási algoritmusokkal az előző 
fejezetekben foglalkoztunk. 


A gyakorlati feladatok megoldásának menete azonban tipikusan jóval bonyolultabb ennél. A tapasztalatok 
szerint, ha egyszerűen a nyers, mért adatokat használjuk a háló tanítása során, akkor a hálózat vagy rendkívül 
lassan konvergál a megoldás irányába, vagy akár divergenciát 15 tapasztalhatunk. A problémák egy részének 
egyik oka az adatokat gyakran torzító, meghamisító zaj lehet, ezért rendszerint célszerű a nyers adatokat 
hihetőség vizsgálatnak alávetni, kiszűrni vagy korrigálni a hibás adatokat, szűréssel javítani a zajos adatokat. 
Másrészt a megfelelő tanító és tesztminta halmaz kialakítására sem mindig a legcélszerűbb eljárás a korrekt 
elsődleges mért adatok összegyűjtése: informatív származtatott adatok előállítása sokszor nagymértékben 
felgyorsítja a megoldás megtalálását. (Triviális példa, hogy amikor a rendszer állapota a disszipálódó 
teljesítménytől függ, akkor nem feltétlenül a mért feszültség és áram értéke jellemzi legjobban a helyzetet, 
hanem a kettő szorzataként származtatott mennyiség, a teljesítmény. A háló ugyan képes megtalálni ezt a 
kapcsolatot, de jelentősen lelassíthatja a megoldás elérését, növelheti a szükséges modell komplexitást, ha olyan 
összefüggések felismerését 1s a hálóra bízzuk és tanítással kívánjuk elérni, melyeknek eleve birtokában voltunk.) 


A gyakorlati feladatok megoldásánál tehát nagy jelentőségű, gyakran a legfontosabb lépések közé tartozik, hogy 
megfelelő — adatelőkészítéssel, — lényegkiemeléssel, — utófeldolgozással tehermentesítsük a hálózatot. 
Általánosságban kimondható: minden olyan ismeretet, amely a priori rendelkezésünkre áll, célszerű valamilyen 
módon az elő- vagy utófeldolgozásba beépíteni, hogy a tanítás során arra a feladatra lehessen koncentrálni, 
melyről csak a mintákban kódolt módon áll rendelkezésünkre információ. 


1. Zajos adatok 


A zajos adatok kezelésével, a zajok fajtáival, a szűrésekkel ebben a könyvben még elnagyoltan sincs 
lehetőségünk foglalkozni, ezeknek a témáknak önmagukban könyvtárnyi irodalma van. Ugyanakkor a tanításnál 
felhasznált mintahalmazok kapcsán érdemes rámutatni egy-két speciálisan fontos jelenségre. 


1.1. Nem Gauss eloszlású zajok hatása 


A jelfeldolgozás, szűrés területén legtöbbször abból indulunk ki, hogy a zajok Gauss eloszlásúak, ami végső 
soron gyakran az átlagolás típusú feldolgozási, zajcsökkentési eljárásokhoz vezet. (Megmutatható, hogy additív 
Gauss fehér zaj esetén a lineáris szűrési eljárások közül legkisebb négyzetes értelemben az átlagolás optimális 
eljárás.) Ugyanakkor a gyakorlati feladatmegoldás kapcsán gyakran találkozunk az úgynevezett kilógó adatok 
problémájával, a 13.3 pontban ezzel részletesebben 15 foglalkozunk majd. Ezek a kilógó adatok (outliers) nem 
modellezhetők jól Gauss zajként, és feldolgozásukat sokszor nem célszerű átlagolással megközelíteni. 


13.1. ábra - Gauss zajjal terhelt szinuszos jel időfüggvényének egy szakasza és 
hisztogramja 
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Az impulzuszajok kezelésére gyakran az átlagolásnál jobb eredményt ad az úgynevezett medián szűrés vagy 
annak valamely változata. A medián szűrés a rendezett statisztika szűrők (Order Statistic Filter, OSF) 
legismertebb alesete. Idősorok esetén az egy időablakba eső értékeket először sorbarendezzük, majd a sor 
középső elemét vesszük (természetesen a medián szűrés nemcsak idősoroknál, hanem sokféle mérési sorozatnál 
alkalmazható). Egyszerűen belátható, hogy ha az ablakhossz W-2L-- 1, akkor az L-nél nem szélesebb 
impulzusok sohasem jutnak el a rendezés során a középső pozícióba, így nem befolyásolják a kimenetet. A 13.2 
ábrán látható idősor átlagolással javított változatának egy részletét láthatjuk a következő, 13.3 ábra ábrán. 


13.2. ábra - Ugyanazon szinuszos jel impulzuszajjal terhelt időfüggvénye, illetve 
hisztogramja 
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Az átlagolás az impulzusszerű zajok amplitúdóját csökkentette ugyan, de időben "szétkente" a zajt, az eredetileg 
zajjal nem terhelt pontok is torzultak. (Ugyanis az impulzusok helyén megjelent az átlagoló szűrő 
impulzusválasz függvénye.) Ugyanezt a jelet ugyanakkora (jelen esetben 5 pont ablakszélességű) medián 
szűrővel javítva az eredeti jelet közel hibátlanul visszaállíthatjuk. (A medián szűrő olyan módon torzít, hogy 
levágja a jel csúcsait, 5 pontos szűrő esetén 2-2 pontot a csúcsnál. Ez a szinusznál i1gen kis torzítást eredményez, 
mert a csúcsnál lapos a függvény.) Természetesen, ha maga az alapjelünk 15 impulzusjellegű lenne - a zajhoz 
hasonló szélességű impulzusokkal - vagy rendelkezne ilyen szakaszokkal, akkor a medián szűrés nem lenne 
alkalmazható. 


Nagyon lényeges tehát, hogy vegyük figyelembe a rendelkezésünkre álló (akár kvalitatív) információkat a jelről 
és a zajról, optimális vagy közel optimális eljárást csak a jel- és zajmodell figyelembevételével tudunk 
választani. 


13.3. ábra - Az impulzus zajjal torzított szinuszos jel egy részlete - 5 pont széles ablakú 
mozgó - átlagolással javítva (folytonos vonal: ideális jel, pontozott vonal: szűréssel 
kapott jel) 
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1.2. Zajos adatok felhasználása az adatok megfelelő súlyozásával 
(EIV módszer) 


A tanításra használt adatokat torzító zaj hatásának csökkentésére több lehetőség is kínálkozik a tanítás során. 
Ezek közül az egyik, de nem az egyetlen, az előző pontban bemutatott zajszint csökkentés (a jel/zaj viszony 
javítása) valamilyen — legtöbbször lineáris — szűréssel, ami kétségtelenül a legismertebb és leginkább elterjedt 
módszer. 


A problémának most egy ritkábban vizsgált aspektusát mutatjuk be, ahol a kiinduló kérdés, hogy milyen 
következményekkel Jár, milyen megoldásokat tesz szükségessé, ha a zaj nemcsak a megfigyelt kimenet(ek)nél 
jelentkezik, amely a legtöbbször vizsgált eset, hanem a rendszer bemenetén/bemenetein 15 csak zajos 
megfigyelésre van lehetőségünk. A vizsgálatok során az derült ki, hogy a bemeneti zaj bizonyos értelemben 
nagyobb problémát jelent a modell kialakításnál, a tanításnál, mint a kimeneti. A szokásos feltételek mellett 
(nulla várható értékű Gauss zaj) a kimeneti zaj aszimptotikusan nem okoz torzítást az eredményben, ugyan 
lassítja a konvergenciát, számos problémát vet fel, de torzítatlan becsléshez juthatunk. Nem ez a helyzet, ha a 
bemeneten 1s megfigyelési zajjal kell küzdenünk, a becslés ilyenkor még a szokásos "kellemes tulajdonságú" 
(nulla várható értékű Gauss) zaj esetén 1s torzított becsléshez vezet. A kimeneti és bemeneti zaj tanulás során 
történő kezelését szolgálja az EIV (Errors In Variables) módszer, aminek ugyan számos problémája van, de a 
kérdés elvi jelentősége miatt mégis érdemes megismerkedni legalább az alapgondolatával [De186]. 


A zaj figyelembevétele — mint az előző pontban is kifejtettük — akkor történhet meg hatékonyan, ha 
rendelkezünk a zajra vonatkozó valamilyen ismerettel, pl. ismerjük az egyes tanítómintákat eltérő mértékben 
torzító zaj szintjét (szórását). Ez az ismeret valamilyen fizikai megfontolás alapján, esetleg a priori 
információkból nyerhető. Másik lehetőség — és a következőkben ezt mutatjuk be —, amikor a mérések alapján a 
jellel együtt a zajt 15 modellezni próbáljuk. Például úgy, hogy egy-egy szituációt többször 15 megpróbálunk 
előidézni, ugyanazt a helyzetet többször 15 megmérjük, és ebből nyerjük ki a különböző zajokra vonatkozó 
információkat. Természetesen ezt 15 akkor tudjuk hatékonyabban megtenni, ha legalább részleges, kvalitatív 
ismeretünk van a zajok jellegéről. Másrészt látni fogjuk, hogy a bonyolultabb modell (rendszer--Zaj) felállítása 
több szabad paraméter meghatározását igényli, így több mérésre lehet szükségünk. 


Tegyük fel, hogy az ismeretlen — neurális hálóval modellezni kívánt — rendszer bemenetét és kimenetét nem 
tudjuk zajmentesen megfigyelni (Id. 13.4 ábra). A valóságban mindig ez a helyzet, csak egyes esetekben 


elhanyagolhatóan kicsi lehet a megfigyelési zaj. Összesen P darab (p—1,2,...,P) px hel ; megfigyelt mintapár 
áll rendelkezésünkre a tanításhoz. A p-edik minta bemeneti jeleiből képzett vektort az összes komponensében 


egy-egy 7x.P szórású, nulla várhatóértéküű Gauss eloszlású zaj terheli (ezt az ábrán ny zajvektor jelöli). A p- 
edik minta kimeneti jeleiből képzett vektort pedig az összes komponensében egy-egy 9y.B szórású, ugyancsak 
nulla várhatóértékű Gauss eloszlású zaj terheli (ezt az ábrán E jelöli). 

Az egyszerűbb leíró formalizmus érdekében azzal a — tulajdonképpen nem életszerű — feltevéssel éltünk, hogy 


egy-egy szituációban a bemeneti és kimeneti jelekből képzett vektorok összes komponensét azonos szórású zaj 
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terheli (ezért lehet két skalárral, 7x.P vel és "Y.? vel jellemezni az adott mintát terhelő zajt). Ezt kézenfekvő 
módon továbbfejleszthetjük olyan módszerré, amelyben a komponens zajok 15 eltérő szintűek, de ennek hatására 
egy újabb index és újabb szumma jelenik meg az EIV megközelítésnél alkalmazott kritériumfüggvényben (ld. 
(13.1)). A gondolatmenet ugyanaz maradna, így az egyszerűség kedvéért a komponensenként azonos zajszintet 
feltételező eset bemutatását választottuk. Ugyanakkor viszont azt tesszük fel, hogy az egyes minták esetén a Zaj 
különböző lehet (ezért indexeljük, az n zajokat p-vel), éppen ez ad esélyt a tanítás eredményeképpen előálló 
becslés javítására. 


Ekkor az EIV módszer által javasolt lehetőség az, hogy a tanítás során használt kritérrumfüggvényt a 
következőképpen módosítsuk: 


: 2 6627-es e) 642 - er [7 e) 


Éget 
EV P a 
F-Il Y.§ 


A kritériumfüggvényben két dolgot kell hangsúlyoznunk: 


- az ismeretlen (megfigyelhetetlen) torzítatlan bemeneti értékek — az xi -k — is szerepelnek a 
kritériuumfüggvényben, tulajdonképpen ezek olyan további szabad paraméterek, amelyeket az optimalizálásban a 
bemeneti zaj hatásának modellezésére használunk, 


- az egyes mintákat torzító zaj szórásnégyzetével súlyozzuk a hibát, tehát a tudottan nagyobb zajjal terhelt 
minták kisebb súllyal kerülnek az optimalizálandó függvénybe. 


13.4. ábra - A bemeneten és kimeneten is megfigyelési zajjal terhelt rendszer és neurális 
modellje 


(pi) ad) modellezni kivánt 
ismeretlen rendszer 


E zal 


neuronháló alapú 


modell 





maz [-j 


Az optimalizálandó kritériumfügvényben a szummázott kifejezés első tagja tulajdonképpen a hagyományos LS 
(legkisebb négyzetes, least sguares) hibakritériumnak felel meg annyi módosítással, hogy az egyes mintákhoz 
tartozó négyzetes hibaértékeket a kimeneti zaj szórásnégyzetének a reciprokával súlyozzuk. Tehát, ha tudjuk (a 
priori ismeretből, mérésből, bárhonnan), hogy az egyik minta zajosabb, mint a másik, akkor annak kisebb lesz a 
hatása a modell tanítás során történő kialakítására. A második tag a bemeneti mért és az — ismeretlen — 
tényleges mintavektorok eltérését igyekszik minimalizálni, ismét a mintához tartozó bemeneti Zaj 
szórásnégyzetének a reciprokával súlyozva. Tulajdonképpen azt a járulékos feladatot viszi be a problémába, 
hogy "milyen lehetett a zajmentes, megfigyelhetetlen bemenet, a zajos értékek alapján becsülve?" . 


Az összehasonlítás kedvéért tekintsük át: 
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- A hagyományos LS módszernél az XÍ1 ÉS Yár adatok jelentik a konkrét optimalizálás (tanítás) 
szempontjából konstans értékeket, amelyek a konkrét feladatot jellemzik, a 0 paramétervektor pedig az 
optimalizálásban felhasználható változókat. 


lit ke dön Eza i 3 Ce aa, AD Baszk ; ; 
- Az EIV kritériumfüggvényében az XÍ/ és az YÁr adatok, valaminta 8 ésa §:§ szórásértékek jelentik a 
konkrét optimalizálás (tanítás) szempontjából konstans értékeket, a Ö paramétervektor és az ismeretlen 


[p) 


zajmentes bemenetnek (X" " (p-1,2,....P ) komponense1) pedig az optimalizálásban felhasználható változókat. 


Ez az összehasonlítás már mutatja az EIV módszer egyik hátrányát 15, nagyon megnő a szabad paraméterek 
száma, ezáltal az eljárás különösen hajlamossá válik a túltanulásra. A másik hátránya, hogy az eljárás 
bonyolultabb, mint az egyszerű LS modellalkotás. Előnye az eljárásnak ugyanakkor, hogy nem elhanyagolható 
bemeneti zajok kezelésére 15 képes [ Van00]. 


2. Az adatok előfeldolgozása 
A gyakorlati feladatok megoldása során szinte mindig célszerű a nyers adatokon valamilyen előfeldolgozást 


alkalmazni, és a feldolgozott adatokat adni a hálózat bemenetére, majd a hálózat válaszát megfelelő 
utófeldolgozással a kívánt eredménybe transzformálnt. 


13.5. ábra - A gyakorlati problémák tipikus feldolgozási folyamata 


nyers eredmem 


előteklolgozas el. neuralis hala utófeldolgozaás 





adatok 


Az elő- és utófeldolgozás az egyszerű transzformációktól (pl. lineáris adatskálázás) a bonyolult adaptív 
algoritmusokig terjedhet. Az eljárásokat legtöbbször a konkrét adatokra, zajokra vonatkozó a priori információ, 
vagy egyéb szakértői ismeret felhasználásával választjuk ki, de gyakran a neurális háló tanítása során nyerünk 
olyan tapasztalatokat, melyek segítségével eldönthető, hogy milyen új adatelőkészítési módszert kell 
alkalmaznunk, vagy az eddig alkalmazott módszereinket hogyan kell módosítsuk. Ezen esetekben a neurális 
modellezés folyamata oly módon válik iteratívvá, hogy a tanító és teszt adatkészletek (amit a továbbiakban 
általában adatbázisoknak nevezünk) kialakítása, majd a hálózat tanítása egy vagy több lépésben ciklikusan 
történik. 


Mivel a háló tanítása önmagában 1s iteratív eljárás, legtöbbször célszerű az egész rendelkezésünkre álló 
adatbázison elvégezni a szükséges transzformációkat, hogy közvetlenül a háló bemenetére kapcsolt, illetve a 
kívánt kimenetként felhasznált adatokhoz jussunk. On line tanítás esetén erre nincs lehetőség, a 
transzformációkat pontonként kell elvégeznünk. Ki kell emelnünk, hogy ellenőrzött tanítás esetén az 
utófeldolgozást jelentő transzformáció inverzét is elő kell tudnunk állítani, hogy a mért kimeneti értékekből a 
háló kimenetére értelmezett mennyiségekhez jussunk Többek között ezért is ritkább az utófeldolgozás 
alkalmazása, mint a szinte mindig jelenlévő előfeldolgozásé. 


2.1. Adatok hihetőségvizsgálata 


Gyakorlati problémák megoldása során — különösen, ha zajos ipari környezetben mért, esetleg kézzel regisztrált 
adatok adják a mintákat — nagy jelentőségű az adatok hihetőségének vizsgálata. Erre lehetőséget nyújt többek 
közt az, hogy a valós környezetben vizsgált fizikai folyamatok általában természetes módon adnak alsó és felső 
korlátokat egy-egy mennyiségre. (Pl. egy tartály mérete automatikusan korlátozza a beletölthető anyag 
térfogatát, a mérőeszköz érzékenysége pedig alsó korlátot ad a mért mennyiségre, a méréshatára pedig a 
legnagyobb mérhető értékre stb.) A nyers adtabázisban az összes paramétert meg kell vizsgálni, hogy a 
hihetőségi határok közé esnek-e. Érdemes továbbá a technológiát ismerő szakemberekkel megvizsgáltatni a 
paraméterek mért értékének eloszlását (hisztogramját) a várt elvi eloszláshoz viszonyítva. 


Amennyiben az egyes mért paraméterek között összefüggés mutatható ki, akkor a paraméterek együttes 
hihetőségvizsgálatát 1s el kell végezni, előfordulhat ugyanis, hogy külön-külön minden paraméter értéke hihető, 
de együtt mégis hibára mutatnak. (Az emberek magassága 150 és 210 cm között hihető, ugyancsak hihető, hogy 
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a súlyuk 35 kg és 200 kg között van, mégis a 210 cm-es 35 kg-os ember nagyon valószínűtlen.) Az adatok 
között található összefüggések vizsgálatára a 13.4 pontban még visszatérünk. 


További vizsgálatok végezhetők a neurális modell kialakítása, tanítása során, amikor a rosszul modellezett 
(kiugró) adatokat megvizsgálhatjuk hihetőség szempontjából 1s, és ennek figyelembevételével 15 szűrhetjük az 
adatbázist. 


2.2. Az adatok normalizálása 


Az előfeldolgozás legelterjedtebb, gyakorlatilag szinte mindig alkalmazott formája a bemeneti adatok egyszerű, 
lineáris skálázása. Különösen fontos ez a lépés, ha a bemeneti adatvektor jellegükben eltérő komponensekből 
áll, melyek több nagyságrenddel különböző értékeket vehetnek fel. (Pl. egy konkrét ipari folyamat 
modellezésénél — a 7. fejezetben említett LD-konverteres acélgyártási eljárás modellezésénél — közel azonos 
fontosságú paraméterként, bemeneti adatként szerepelt egy adalékanyag tömeg, melynek tipikus értéke 4000- 
$000 kg volt, és egy anyag mangán tartalma, melynek értéktartománya a 0,05-0,190 tartományba esett. A hálók 
egy része — bemeneti rétegének megfelelő súlyaival — elvileg kompenzálni képes ezt a nagyságrendi eltérést, de 
a tanulás konvergencia sebessége olyan szintre csökkenhet, mely a megoldás elérését gyakorlatilag lehetetlenné 
teszi.) 


Az adatnormalizálást legtöbbször akkor iís el kell végeznünk, ha a bemeneti paraméterek mind azonos 
nagyságrendbe esnek. Például egy MLP háló a szokásos (kis véletlen értékekkel történő) inicializálás után nem 
— vagy csak nagyon nehezen — képes normalizálatlan értékeket megtanulni, ha a bemeneti értéktartomány az 
origótól távolabb eső, azt nem tartalmazó intervallum. 


A bemeneti adatok normalizálása legtöbbször úgy történik, hogy mindegyik komponens minimális és maximális 
értékét a normált tartományban azonosra választjuk (tipikusan a [0.1] illetve a [-1,1] tartományok valamelyikét 
használjuk). Pl., ha az x-[x:, ..., xv] bemeneti vektor i-edik komponensét a [0,1] tartományra akarjuk normálni, 
akkor a következő lineáris transzformációt kell az összes mért értéken végrehajtani (a (p) felső index arra mutat, 
hogy az 1,2,...,.P minták közül a p-dik minta komonensetről van szó) : 


AP) x4t) — MINT; i 
MAXI r— MIX; i (13.2) 


Másik szokásos eljárás, hogy valamennyi bemeneti paramétert a normálás során nulla várható értékűvé és 
egységnyi szórásúvá transzformálunk. Ehhez szükségünk van a mintahalmaz tapasztalati átlagára és szórására 
komponensenként. A tapasztalati átlag az alábbi egyenlettel számítható: 


F 
- 1] p 
Aj - Fz a xi ) 
p-l (13.3) 
A szórás becslése: 
aza 1 F 2 


Em 
p-I (13.4) 


Ezen értékek felhasználásával az i-edik komponens nulla várható értékűre és egységnyi szórásúra normált 
értékei a következő összefüggéssel állíthatók elő (megjegyezzük, hogy ez a megállapítás csak közelítőleg igaz, 
mivel a normalizálásnál mind a várhatóérték, mind a szórás becsült értékével dolgozunk): 


li (13.5) 


A leggyakrabban használt MLP hálózatok esetén a fenti normálásnak megfelelő lineáris transzformáció 
tulajdonképpen a tanulás során 1s kialakulhat a bemeneti lineáris rétegben, de a tapasztalatok szerint célszerű a 
normálást egy előfeldolgozási lépesben elvégezni. Ugyanakkor pl. az RBF hálózatoknál az adat normálás 
különösen nagy jelentőségű, hiszen a neuronok aktiválása legtöbbször nem az egyes bemeneti komponensek 
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súlyozott összegével történik, hanem az euklideszi távolság alapján. Ha a bemeneti vektor N dimenziós, akkor 
az alap RBF háló A adik neuronját aktiváló érték a p-edik minta esetén: 

















(13.6) 


Látható (13.6)-ból, hogy ha az x bemeneti vektor komponensei nagyságrendekkel eltérő értékeket vesznek fel, 
akkor a kis értékekkel rendelkező paraméterekre a hálózat nagyon érzéketlen lesz. Mivel — szemben az MLP 
hálózattal — itt nem találunk bemeneti lineáris súlyozó réteget, az RBF háló nem képes a tanulás során 
kompenzálni ezt a problémát. 


A fent bemutatott lineáris skálázási eljárásokban a bemeneti x vektor komponenseit egyenként, egymástól 
függetlenül normáltuk. Lehetőség van a vektor elemeinek együttes normálására, melynek során az esetleg 
fellépő keresztkorrelációkat 15 figyelembe vesszük. 


! (13.8) 


Írjuk fel az C kovariancia mátrix sajátérték-sajátvektor egyenletét: 


sésseö 1130) 


és definiáljuk az alábbi mátrixokat: 
5- [9.9] (13.10) 


Ezen mátrixok segítségével a következő lineáris transzformációt hajthatjuk végre: 


el2) Azta (lo) g) 
(13.12) 


Az eredmény egy olyan adathalmaz, melynek átlaga a nulla vektor, míg kovartancia mátrixa egységmátrix. 


Bizonyos esetekben — elsősorban regressziós problémáknál — célszerű a bemeneti adatok mellett a kimeneti 
adatokat 15 normálni. Egyes hálóknál a kimeneti adatok normálása vagy megfelelő határok közé transzformálása 
nemcsak célszerű, hanem kötelező 15. Gondoljunk csak egy olyan MLP-re, ahol a kimeneten szigmoid 
nemlinearitás található. Egy ilyen háló kimenete nem vehet fel a (-1,-1) (vagy logisztikus nemlinearitás esetén a 
(0,1)) intervallumon kívül eső értékeket. Ha a kívánt válaszok ezen tartományon túllógnak, a háló képtelen a 
feladat megtanulására. Sőt a kívánt válaszok kissé nagyobb mértékű korlátozására 15 szükség van, hiszen a 
nemlinearitás telítődő jellege miatt az intervallumok szélső értékeit már nagyon nehezen veszik fel ezek a hálók. 
Így a gyakorlatban jól működő megoldást nyerünk, ha pl. tangens hiperbolikusz nemlinearitás esetén a kívánt 
válaszokat a [-0,8, 40,8 ] intervallumra normáljuk. 


2.3. Diszkrét értékekkel reprezentált szimbolikus adatok kezelése 


A hagyományos mérnöki feladatokban a bemeneti adatokat legtöbb esetben úgy kezeljük, mint amelyek egy 
folytonos változó valamilyen értéktartományban felvett értékeinek halmazából állnak. Így általában értelmezett 
a távolságfogalom és beszélhetünk arról, hogy a halmaz egyik eleme közelebb van egy adott másikhoz, mint a 
halmaz bármely egyéb eleméhez. Ennek megfelelően rendszerint a közeli számértékekkel reprezentált adatok 
hasonló szituációkat takarnak. (Például, ha egy folyamatot modellezünk, és bemeneti modellparaméter a mért 


361 
XMLmind XSL-FO Converter 


Gyakorlati feladatmegoldás: 
adatelőkészítés, lényegkiemelés 


hőmérséklet, akkor a 207C mintaérték és a 217C mintaérték tipikusan egymáshoz inkább hasonló szituációkat 
takar, mint a 707C€-os mintaértékkel jellemzett helyzet.) 


Előfordulnak azonban olyan feladatok is, ahol számok diszkrét halmaza segítségével szimbolikus értékek 
ábrázolását végezzük. Ez különösen gyakran előfordul olyan feladatoknál, ahol emberi intelligenciát igénylő 
problémákat akarunk megoldani, hiszen ezekben a látás, képfeldolgozás, a szimbolikus feldolgozás keveredik a 
numerikus jellegű feldolgozással. A számokon természetes módon értelmezett távolságfogalom ilyenkor 
meghamisíthatja a szituáció értelmezését. Tegyük fel pl., hogy valamilyen modellben az anyag színének 1s 
jelentősége van, bizonyos szituációkat csak így tudunk megkülönböztetni. Amennyiben a piros, barna, sárga, 
kék, stb. színeket rendre 1, 2, 3, 4, ... számokkal reprezentáljuk, a neurális háló tanítása során azt a feltehetően 
hamis információt sugalljuk, hogy a sárga közelebb van a kékhez (egyiket 3-mal, másikat 4-gyel kódoltuk), mint 
pl. a piroshoz (amit 1-gyel kódoltunk). Ilyenkor a dimenziószám növelését is vállalva az inkább az N-ből 1 
kódolást kell alkalmaznunk (vagy a bemenetek közötti hasonlóságot tükröző metrikát kell használnunk). Tehát 
pl. a fenti négy szín esetén egy bemeneti változó helyett négyet használunk: [1, 0, 0, 0] jelöli a pirosat, [0, 1, 0, 
0] a barnát, stb. A dimenziószám-növelés hatását kompenzálja, hogy a távolság félrevezető használatát 
kiküszöböltük, másrészt a bináris bemenetek (és kimenetek) jelenléte általában gyorsabb konvergenciát 
eredményez, mint a folytonos értéktartományban, vagy diszkrét többértékű halmazon értelmezett be- és 
kimenetek használata. Ez a helyzet különösen gyakori osztályozási feladatok esetén, ezért az osztályozó hálók 
kimenetén szinte mindig az N-ből 1 kódolást célszerű alkalmazni. (Természetesen kivételt jelent a kétosztályos 
osztályozási feladatok egy része, amelyeknél a távolság-probléma nem lép fel, így ítt a kimeneten 0/1-gyel 
kódolható a két osztály.) 


2.4. invariáns tulajdonságok elérését segítő előfeldolgozás 


Az alkalmazások jelentős körében — elsősorban, de nem kizárólag, az alakfelismerési feladatokban — fontos 
érzéketlen legyen az eljárásunk. Például ha postai irányítószámokat kívánunk felismerni, akkor egy adott 
számjegy a kijelölt négyzeten belül különböző helyeken fordulhat elő, és bizonyos határok között elfordulással 
és egyéb hatásokkal is számolnunk kell. Természetesen a számjegyet ezen transzformációktól függetlenül fel 
kell ismernünk, tehát a felismerési, osztályozási eljárásnak eltolással és bizonyos mértékű elforgatással szemben 
érzéketlennek kell lennie. Más feladatokban is előfordul, hogy azt szeretnénk, hogy bizonyos paraméterekre 
legyen érzéketlen a megoldás. Az osztályozási feladatoknál bizonyos transzformációkkal szembeni invariancia 
kérdését a virtuális minták generálásához kapcsolódóan az előző fejezetben már érintettük. Itt a kérdés 
kezelésére két további lehetőséget 15 megemlítünk. 


ey. 


szemben invariáns feldolgozásra van szükség, három lehetőség között választhatunk: 


e A neurális háló tanítását, pl. a tanító adatbázis vagy a költségfüggvény kialakítását végezzük úgy, hogy az 
eredmény szükséges invarilanciáját biztosítsuk. 


e A feldolgozási algoritmust két részre bontjuk, az első lépésben egy előfeldolgozási eljárás keretében a 
transzformációval szemben invariáns jellemzőket (features) állítunk elő, majd a második lépésben a neurális 
modellt ezekkel az invariáns jellemzőkkel tanítjuk. 


e A neurális modellt úgy strukturáljuk, hogy elősegítsük a transzformációval szembeni invarianciát. 


A fenti három eljárásból az első speciális adatelőkészítéssel, adatbázis kialakítással oldja meg a problémát, a 
második egy előfeldolgozási lépést iktat be, míg a harmadik eljárás tulajdonképpen nem az e fejezeten belül 
tárgyalt módszereket használja. 


Két lehetőséget ismertetünk, amelyekkel a tanítás során invariáns eredmény elérésére törekedhetünk. 


Egyik lehetőség, hogy úgy alakítjuk ki a tanító adatbázist, hogy nagy számban tartalmazzon eltolt (illetve 
szükség esetén elforgatott, stb.) mintákat. Ha nem képfeldolgozás a feladat, akkor csak azon paraméterben, 
jellemzőben különböző, egyébként azonos mintákat állítunk elő, amely paraméterre, jellemzőre érzéketlen 
megoldást szeretnénk kapni.) Ha nem állnak rendelkezésünkre kellő számban ilyen mért adatok, akkor a 
meglevő adatainkból a feladat szempontjából fontos transzformációk felhasználásával előállíthatunk 
eltolt/elforgatott adatvektorokat. (Ezt a lehetőséget a 12. fejezetben, a járulékos információ felhasználása 
kapcsán 1s említettük.) Ezek után a neurális modellt erre az adatbázisra alapozva tanítjuk, tulajdonképpen az 
adatbázisba felvett, speciális szempontok alapján válogatott/módosított adatokkal biztosítva a cél elérését. A 
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módszer alkalmazásánál azonban óvatosan kell eljárni, mert az adatbázis nem megfelelő kibővítése, a 
gyakorlatban sokszor igen rossz eredményeket ad (lassú konvergencia, rossz teszt eredmények, stb.). 


Másik lehetőség, hogy a regularizációhoz hasonlóan (lásd 2. fejezet) az optimalizálni kívánt 
költségfüggvényben vesszük figyelembe a kívánt invariáns tulajdonság hiányát vagy meglétét. Tehát a tanító 


mintákra való illeszkedést leíró hiba helyett a Cr összetett, regularizált költségfüggvény minimalizálását 
végezzük: 


ának az TELS) 


ahol C a szokásos — a tanító minták illeszkedési hibájára jellemző — költségfüggvény tag, Ci az invariancia 
hiányát leíró költségtag, A a regularizációs együttható. 


3. Kilógó adatok 


A hiányzó adatok mellett igen sok problémát okoznak a zajok vagy a mérési hibák miatt fellépő, a valós 
adatoktól erősen eltérő, úgynevezett kilógó adatok (outliers) 15. Ebben az alfejezetben alapvetően az adatok 
minősítésével foglalkozunk; hogyan lehet felismerni, modellezni, hogy az adathalmazból melyeket tekintsünk 
kilógóknak, melyek tekinthetők "csupán" a szokásos módon zajosnak. A következő alfejezetben ismertetett, 
hiányzó adatok pótlására szolgáló eljárások alkalmasak lehetnek arra, hogy javítsuk az adatbázisunkat. A 
detektált kilógó adatokat ugyanis egyszerűen úgy tekinthetjük, hogy ezekben a pontokban hiányzik a releváns 
információ. 


Kézi adatrögzítés esetén tipikus "mérési hiba" az adatrögzítés hibája, pl. rossz helyre tett tizedesvessző. A 
hatásuk több szempontból 15 káros. Egyrészt a tanítás folyamatában az impulzuszajoknál (lásd 13.1.1) 
ismertetett eredményre vezethetnek (a modellben általában nem impulzusszerű, de egy tágabb környezetben 
elkent torzítást okozhatnak). Másrészt tönkretehetik az előfeldolgozásnál nagyon gyakran alkalmazott és 
rendkívül hasznos normalizálási lépést. Az 13.6 ábrán egy zajmentes, [-1,1] tartományra normált szinuszjel és 
hisztogramja látható. 


13.6. ábra - Egy [-1,1]-re normalizált szinuszjel, és hisztogramja 





50 








agg 400 600 BON 1000 8 -Ü 5 Ö 0.5 1 


A következő ábra azt mutatja, hogy ha valamilyen okból a jel egyetlen pontjában egy erősen hibás (kilógó) 
értéket mérünk, akkor az a normalizáláskor összenyomja a hasznos jeltartományt. Ha ezzel a normalizált 
paraméterrel tanítunk egy hálót, akkor azt "sugalljuk", hogy lényegében 7-1 és -1 értékek fordulnak elő ezen a 
bemenetén (a 7-1-es érték csak egyszer, a -1 körüli értékek sokszor), mintha bináris jelünk lenne. Természetesen 
a háló képes lehet ezt kiküszöbölni, de minden "félrevezetés" rontja a megoldás minőségét és a tanulás 
konvergencia sebességét. 


13.7. ábra - Egyetlen kilógó értékkel terhelt szinuszjel [-1,1]-re normalizálva, és a 
normált jel hisztogramja 
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3.1. Kilógó értékek modellezése klaszterezéssel, az ÉM 
algoritmus 


A kilógó értékek káros hatását csökkentő eljárások alapvető problémája, hogy honnan vesszük észre egy adatról, 
hogy az alapvetően használt jelmodellünknek megfelel-e, ami lehet valamilyen szokásos mértékben zaj által 
torzított adat, vagy valamilyen rendkívüli, nagymértékű torzítás történt. 


Az egyik lehetőség az adatok nemellenőrzött tanítással történő osztályozása, klaszterezése. (Ellenőrzött tanítás 
nem jöhet szóba, hiszen nem tudjuk az egyes adatokról, hogy melyik csoportba tartoznak. ) 


Feltételezhetjük, hogy ha a torzítás nagymértékű, akkor az adatok osztályozása során a kilógó adatok a 
tipikusaktól eltérő klaszterbe kerülnek. Elvileg nincs más dolgunk, mint klaszterezni és eldönteni, hogy melyik 
klaszter tartalmazza a normál és melyik vagy melyek a kilógó adatokat. Általában azzal az egyszerű 
feltételezéssel élünk, hogy a normál adatok vannak többségben, és a nagy elemszámú csoportokat (klasztereket) 
normálként kezeljük. Ugyanakkor a helyzet különösen problematikus akkor, ha nagyon összetett (sokdimenziós) 
adatokat használunk, és a kilógó adat sokféleképpen jöhet létre. A következő ábrán demonstráljuk a problémát 
egy kétváltozós adathalmazon. 


Látható, hogy ha a kétváltozós adathalmazunk mindkét paraméterére egyszerre hat a nagymértékű torzítás, 
amely kilógó adatokat eredményez, akkor két klaszter jött létre: egy a normál adatokból és egy a kilógókból. 
Amennyiben a torzítás hol ezt, hol azt a paramétert éri (pl. hol az egyik, hol a másik adatot regisztrálják 
hibásan), akkor 3 klaszter alakul ki. Ez azért fontos kérdés, mert a klaszterezési eljárásaink nagy része kötött, 
előre rögzített számú klaszter esetén működik jól. Ha felülbecsüljük a klaszterek számát, és pl. a 13.8 (a) 
ábrában 3 klasztert keresünk, akkor fennáll a veszély, hogy a normál adatok egy részét is leválasztjuk és 
kilógónak tekintjük. Ha viszont alulbecsüljük a klaszterek számát, pl. a 13.8 (b) ábrában 2 klasztert keresünk, 
akkor jó eséllyel az egyik kilógó csoportot normálnak fogjuk tekinteni. 


13.8. ábra - A kilógó adatokat mindkét paraméterre egyszerre (a), illetve külön-külön 
ható (b) torzítás hozta létre (mindkét ábrán a vízszintes tengelyen az egyik, a függőleges 
tengelyen a másik paraméter értéke látható) 
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A feladatunk tehát abban áll, hogy önszerveződő osztályozással, klaszterezéssel eltérő paramétereloszlású 
csoportokat keresünk, és ennek alapján döntjük el, hogy melyik adat kilógó és melyik normál adat. 


3.1.1. Az EM-algoritmus 


Az EM-algoritmust  (expectation-maximization algorithm) először általánosságban tárgyaljuk, majd 
konkretizáljuk egy olyan feladatra, amely kevert minták szétválasztását célozza! . 


Általánosságban az EM-algoritmust olyan feladatok megoldására fejlesztették ki, amelyekben ismeretlen, de 
konkrét, elvileg rögzített paraméterek becslését szeretnénk meghatározni valamilyen adathalmaz alapján úgy, 
hogy bizonyos adatelemeket nem ismerünk (pl. nem tudjuk ezeket mérni), csak valószínűség-eloszlásukról van 
információnk [Dem77], IM1t97]. 


Az EM-algoritmus szemléltetésére több példa 15 felhozható. Első példánk legyen a következő: meg akarjuk 
becsülni egy sokdimenziós adathalmaz átlagát úgy, hogy az adataink hiányosak, bizonyos adatvektorok egy 
vagy több komponense hiányzik. (Pl. egy — valamilyen elektromos vagy elektronikus berendezésekből álló — 
termékhalmazon mérték a termék áramfelvételét, két meghibásodás közötti időt stb., de néhány terméknél 
egyik-másik adat hiányzik, elveszett stb.) Egy másik lehetséges példa, amelyet későbbiekben részletesebben 15 
tárgyalunk a következő: van egy adatsorunk, melyben az adatok több eloszlásból származhatnak. Az adatok 
alapján szeretnénk megbecsülni az egyes eloszlások várható értékét, de anélkül, hogy tudnánk, hogy az egyes 
adatok melyik eloszlásból származnak. Egy hétköznapi példaként gondoljunk arra, hogy az amerikaiak 
magasság, vérnyomás stb. adatai alapján azt szeretnénk megmondani, hogy az amerikaiakon belül az egyes 
népcsoportok (fehér, néger, mexikói, ázsiai) átlagmagassága, vérnyomásának átlaga és szórása stb. mekkora. 
Mindezt azonban úgy szeretnénk meghatározni, hogy az egyes méréseknél nem lett feljegyezve, hogy ki melyik 
népcsoportba tartozik. Van tehát egy olyan adathalmazunk, mely pl. a magasságértékeket tartalmazza, de az 
egyes értékek mellett nincs meg az az információ, hogy melyik magasságérték melyik népcsoportba tartozó 
ember magassága, vagyis hiányos adatokkal van dolgunk. Itt az ismeretlen paraméter, a hiányzó adat az, hogy 
melyik adat melyik csoportból származik, a keresett paramétervektor pedig a csoportok átlagos magasságából 
képzett vektor. (Természetesen ennek a demográfiai illetve népegészségügyi példának számos műszaki 


bt elnáőlk d 


Az EM-algoritmust. általános formájában a következőképpen szokták megfogalmazni (pl. [M1t97]). Egy 
valószínűség eloszlás valamilyen § paramétervektorát akarjuk becsülni csupán részlegesen megfigyelhető 
adatok alapján. Legyen X-(Xxi, X2, ..., XL) a megfigyelt adatkomponensek halmaza és Z—-(Zz:i, Z2, ..., Zn) azon 
adatkomponensek halmaza, amelyeket nem tudtunk megfigyelni. Tehát az f — A 1 £ lenne a teljes adathalmaz, 
és ha mind X, mind Z ismert volna a feladatot könnyen meg lehetne oldani. Minthogy Z-t nem ismerjük, ezt 
hiányzó ismeretnek nevezzük. A nem ismert Z komponenseket valószínűségi változóként kezelhetjük, amelyek 


eloszlása az ismeretlen § paramétervektortól függ. Hasonlóképpen Y is valószínűségi változó, hiszen X és Z 
segítségével definiáltuk. A Z hiányzó adatokat jellemző valószínűség eloszlás függ a keresett paramétertől. Ha 


ismernénk Z valószínűség eloszlását, akkor az X megfigyelt adatok alapján a 8 paramétervektor becslését meg 
tudnánk határozni. Ugyanis a § paramétervektor becsléséhez Z teljes ismerete nem szükséges Z várható értéke 


! Ebben a szakaszban a valószínűségek jelölésére használt P helyett a mintaszámot ismét L-lel jelöljük 
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alapján a becslés meghatározható (Meg tudnánk fogalmazni egy maximum likelihood becslési feladatot, 
melynek megoldásaként § olyan becslését határozhatnánk meg, mely mellett a megfigyléseink a legnagyobb 
valószínűségűek.) A § becslés segítségével a hiányzó adatok valószínűség eloszlását pontosabban meg tudjuk 
adni, ami (a maximum likelihood becslésen keresztül) a § paraméter jobb becslését eredményezi. Az eljárást 
folytatva a paramétervektor egyre jobb becslését kapjuk. Megfelelő feltételek mellett ez az iteratív eljárás 
konvergens és a § becslések sorozata a valódi § paraméterhez konvergál [IDem77]. 


Általánosabban az eljárást a következőképpen fogalmazhatjuk meg. Van egy kiinduló hipozézisünk az 
ismeretlen paraméterről. Jelöljük ezt A-val. A h aktuális hipotézis megad egy aktuálisan igaznak tartott 
paramétervektort. Egy iteráció során egy új hipotézist, h-t állítunk fel, mely a paramétervektor egy jobb 
becslését adja. Olyan új hipotézist keresünk, mely mellett a (teljes) megfigyeléseinkre vonatkozó P(TJa ) 
feltételes sürüségfüggvény maximumát a tényleges adatainknál veszi fel. Ez egy maximum likelihood becslési 
feladat lenne, ahol a feltételes sürűségfüggvény a likelihood függvény. Azonban mivel az Y teljes adathalmazt 


nem ismerjük, a ( ) likelihood függvény maximumát biztosító hipotézist sem tudjuk meghatározni. 
: FT JEE sát sáts Hi PÍY]R 
Meghatározhatjuk azonban a ( ) likelihood függvény várhatóértékét j / ) -t, és a várhatóérték 


alapján fogalmazhatunk meg egy maximum likelihood becslési feladatot. Az Ej / ) meghatározásához az 
Y teljes adatok ismeretére nincs szükségünk, elegendő, ha Y eloszlása ismert, ami azt jelenti, hogy a hiányzó 
adatok ismerete nélkül, de a hiányzó adatok eloszásának ismeretében a várhatóérték likelihood függvény 
megfogalmazható. A várhatóértéket az Y-t generáló valószínűségi eloszlás felett képezzük, amelyet viszont a § 
paramétervektor határoz meg. Az aktuális hipoztézis (az ehhez tartozó aktuális paraméterbecslés) alapján 
siPÍrr) 


, majd az ennek maximumát biztosító új 


zlog(PÍ(r]w) 


meghatározható a várhatóérték likelihood függvény, 


hipotézis. (Legtöbbször praktikus okokból e helyett az -t maximáljuk, de ez a lényegen nem 


változtat, a két kifejezés maximuma egybeesik.) 


zi log(PÍ(r]w)) 


feltételezéssel, hogy az aktuális hipotézisünk, h szerint a paramétervektor értéke § , valamint, hogy az adataink 
megfigyelhető része X: 


sün fr jét . i . 
Definiáljunk egy el ) függvényt, ami -t mint h" függvényét adja meg azzal a 


elt 7 zi PÍT]n) hXI (13.14) 


Ezekután az EM-algoritmus az alábbi két lépést ismétli, amíg a konvergencia be nem következik: 


kelát . . . ; 
E-lépés: várhatóérték-képzés (expectation). Meghatározzuk a ol ) függvényt a jelenlegi h hipotézis (§ 
paramétervektor) és a megfigyelt X adathalmaz alapján, az Y felett nyert valószínűségi eloszlás várható értékét 
képezve: 


Orra ziPÍTIr) Ia, X) fáj 


M-lépés: maximumkeresés (maximization). A h hipotézist javítjuk, megkeressük azt a h-t (a paramétervektor o 
új becslését), amely maximálja az E-lépés során nyert 0-t: 


fh — argmax ol Va) 
í (13.16) 


Az M-lépés után az új paramétervektorral újra meghatározzuk az Y feletti eloszlás (amely változott a 
paramétervektor változása miatt) várható értékét, majd újra maximáljuk a 0-t stb. 


Az általános bemutatás után szemléltessük az EM-algoritmust a fent már említett, legismertebb alkalmazási 
példájával, a kevert eloszlások paraméterbecslésével. Tegyük fel, hogy L darab többdimenziós mintánk van 
X-ÍXi, X2, ..., XL), amelyek K különböző eloszlásból származnak a következő módon. Először valamilyen 
valószínűséggel eldől, hogy melyik eloszlásból jön a következő minta (bár mi ezeket a valószínűségeket nem 
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ismerjük). Azt az eseményt, hogy a k-dik eloszlásból származik a következő minta, jelölje w,, ennek a priori 
plzlox 8x) 


ismeretlen paramétervektorok együtt 


bekövetkezési valószínűsége P(w,). Ezt követően az adott, k-dik eloszlásra jellemző 


valószínűségeloszlás alapján előáll az adott érték. A 8y K-I... A 


adják az összetett eloszlás § ismeretlen eredő paramétervektorát, amely meghatározza a minták eredő 
eloszlását. 


Egy adott — bár ismeretlen — paramétersor (paramétervektor) esetén a kevert eloszlást a következő összefüggés 
írja le: 


p(sle)- 5 p(xla0r) (ax) 


1-1 (13.17) 


A rögzített, de ismeretlen § mellett a mért adathalmazunk valószínűségét a következő összefüggés, az 
úgynevezett likelihood függvény adja meg, ami nem más, mint az egyes értékek valószínűségeinek szorzata: 


h 
p(zle)-TTplxjbe) 
j-I (13.18) 
e A 18 
A § ismeretlen paramétervektor maximum likelihood (ML) becslése az a § becslő, amely a F ( ] a 
maximálja. 


A - argrmax pl xB) 
ü (13.19) 


Ez az összefüggés azt fejezi ki, hogy a ténylegesen mért adatsor a különböző § -k esetén különböző 
valószínűségű, és érthető módon azt a §-t választjuk ezek közül, amely mellett a mért adatsor a legvalószínűbb. 


A JA va atás a8a sugjó ; 
Tegyük fel, hogy F ( ) differenciálható § szerint, jelöljük a likelihood logaritmusát S£S£IHS GID Jel, a 
Va, ( EIKELIHDOD) 


logaritmikus likelihood függvény 0; szerinti gradiensét pedig -lel, ekkor: 
h 

LIKELIHOOD - 9 loglplx; B) 
ges (13.20) 


és 


L E 
Ta ÉSEóBe S kae a.aJe(ai 
jzl TEN) j ej k-I (13.21) 


Tegyük fel, hogy az összes § és 0 paramétervektorok elemei függetlenek egymástól, amennyiben ! 7 ke 


Mivel F(m) nem függ 0; től: 


4 
Va, [EIKELIHOOD] - 27 Va. plx; e; , B; IPla;) ü 


END 


felulete ovuveleulasa 


j-l F (xj e) F ix) 2.8 (13.22) 
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plz X ; Ir, 8 1] 


A kifeje an 3t bővítettük plz le6) Hl ss 83) - gyel. A Bayes tétel alapján a szumma utáni első tényező nem más, 


mintaz —— esemény a poster1ori valószínűsége. Tehát 


plz; ő; 8; Play ) 


Play, 6;) - PlzzB) 43 


aa 
Ez annak valószínűségét adja meg, hogy a megfigyelt x; minta az i-edik eloszlásból származik adott § (és ezen 


belül 85) mellett. Ezek után az (13.22) egyenlet a következő alakra hozható: 


gb 
Va, (IKELIHOOD) - 9 Plalxj. 8; ) Va logÍplx; le, 8; )) 
s (13.24) 


Mikor elérjük a maximumot, akkor a gradiens 0-vá válik, tehát az ML becslés ki kell elégítse a következő 
összefüggéseket: 


h 
HA Pl XB) Va log] plz; a, 6; JJ-o i-1,...,K 
me (13.25) 


Tehát ezen egyenletrendszer megoldásai között kell keressük az ML becslőt. 


Ha tudnánk, hogy melyik minta melyik eloszlásból származik, akkor az ismeretlen paramétereket (pl. az 
eloszlások várható értékét, szórását stb.) viszonylag egyszerűen tudnánk becsülni. Ezek viszont a nem 
megfigyelt, nem megfigyelhető változók. Így viszont az alábbi nemlineáris egyenletrendszert kéne megoldanunk 


. . . , [aj új , El les 
(amennyiben sem az a priori eloszlások, sem az egyes "? eloszlásparaméterek nem ismertek) : 


Bla) IS Plahuó) 


JI (13.26) 





z 6) plz; a, 8; JP (ap ) 


7——— — 
2 plz len 8 Pl) 

r—] (13.27) 

h 

5 lakk Xi; 8; ) Va, logip [xs le.6; )J- 0 i-1,...,K 

j-I (13.28) 


Foglaljuk össze, hogy mit ismerünk, és mit kívánunk megbecsülni ebben az egyenletrendszerben. Két dolgot 
ismerünk: 


- az Z-lxxg mintahalmazt, 


az egyes eloszlások struktúráját (legtöbbször pl. azt tudjuk vagy fetételezzük, hogy normál eloszlásról van szó). 


MRS plz; a.65 ) KN ; 
Ezt fejezi ki az egyenletrendszerben a ge szerepeltetése, amely 8; paraméterekkel jellemezhető. 
Nem ismerjük: 
- az egyes eloszlások a priori valószínűségeit (ezért használunk az összefüggésekben Pl a; ) -t, ami a 
valószínűség becsült voltára utal), 
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- az egyes eloszlások paramétereit (erre utal a § használata), 


nem tudjuk, hogy melyik minta melyik eloszlásból származik — ez tulajdonképpen az az adat, amit nem tudunk 


. , , . ... . . r kom or FÚ XI, 8; ) 
megfigyelni —, és természetesen nem ismerjük az a posteriori valószínűsége- ket sem ( ): 


Az egyenletrendszer gyakran nem oldható meg vagy a megoldás nagyon nagy számításigényű. Ennek 
megfelelően az EM-algoritmus iteratív megoldást kínál, a következő két lépés ismételt alkalmazásával. Első 


lépésben a (13.26) és a (13.27) összefüggések alapján, a pillanatnyilag használt § segítségével kiszámítjuk az a 


ue s Pak ó) j 
posteriori valószínűség eloszlást, és a várható értékét képezzük — (expectation-lépés). Ezek 
után az így kiszámított várható értékeket írjuk be a (13.28) logaritmikus likelihood egyenletbe, és megkeressük 
azt az új § értéket, amely maximálja a logaritmikus likelihood-ot (maximization-lépés). Ezt a két lépést 
ciklikusan valamilyen kezdeti értékekből kindulva, valamilyen leállási feltétel eléréséig folytatjuk. A 
kezdetiérték választás, a konvergencia, a leállási feltételek kérdéseinek tárgyalása meghaladják a jelen könyv 
kereteit. 


A legtöbbször vizsgált eset, amikor az egyes részeloszlások Gauss-jellegűek. Ilyenkor a következő — nagyon 
logikus — eredményre jutunk az ismeretlen átlagok (és szórások) becslésénél. Az eredményeket — a jobb 


áttekinthetőség kedvéért — skalár részeloszlások esetére közöljük, amikor csak az eloszlások várható értéke 0 ) 
ismeretlen, a szórásuk azonos és ismert. (Természetesen az 1s ismeretlen, hogy a keverékből melyik adat melyik 
eloszláshoz tartozik.) 





1 
zi) Pa bj.6r) - s Ten j; 
sé 
F (13.29) 


(13.30) 


Látható, hogy ha tudnánk, hogy melyik minta melyik részeloszlásból származik, akkor visszakapnánk a várható 
érték becslésére a jól ismert átlagértéket — azon értékek átlagát, amelyek az adott részeloszláshoz tartoznak. (Az 


s Pleb 6;)) 
j várhatóértékek 1, illetve 0 értéket vennének fel, attól függően, hogy az adott mérés a 
kiválasztott eloszláshoz tartozik-e vagy sem.) 


4. Hiányzó adatok 


Gyakorlati feladatok megoldásánál a mérőeszközök, illetve a technológia hibái miatt a mért adatok hiányosak 
lehetnek. (Természetesen a hiánnyal azonosan kezelendő problémára vezet, ha az adat előállt ugyan a mérés 
során, de értéke nem hihető.) Az egyszerűbb tárgyalhatóság kedvéért tegyük fel, hogy egy folyamat P mért 
adatából állítjuk elő a skalár kimenet becslését neurális modellünk segítségével. Ha ellenőrzött tanítással 
alakítjuk ki a modellt, akkor többféle megoldandó probléma fordulhat elő (azt feltételezzük, hogy a modell több 
bemenettel, de egyetlen kimenettel rendelkezik): 


e a bemeneti adatsor teljesen hiányzik, 
e a kimeneti adat hiányzik, 


e a bemeneti adatsor egyes elemei hiányoznak. 
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Vizsgáljuk meg melyik hiba milyen problémát eredményez a tanítás során. (A tanított hálózat használata során a 
bemeneti adatok hiánya azonos jellegű problémákat vet fel, mint a tanítás során. A kimeneti adat hiányának 
viszont az ellenőrzött tanítás során nincs értelme, ez esetben nem tudunk tanítani ezzel a mintával. Ez alól 
kivétel a félig ellenőrzött tanulás, mely során épp az a cél, hogy olyan mintákat 15 hasznosítani tudjunk, 
melyeknél a kívánt válasz nem ismert. A tanított háló működtetésekor viszont természetes, hogy nincs kimeneti 
adat.) A feladat jellegétől függően alapvetően kétféle helyzettel kerülünk szembe. Amennyiben statikus 
feladattal foglalkozunk, akkor a hiányzó adatok a tanítás során csupán a modellezni kívánt mintatér lefedettségét 
rontják, de a többi mintára nincs hatásuk. Ha dinamikus feladattal foglalkozunk, akkor a hiányzó adatok a 
meglévő helyes adatok használhatóságát 15 zavarják. (Példa lehet a dinamikus modellezésre, ha modellünk 
idősorok jóslásával foglalkozik: az előző N időpontban mért értékek alapján jósolja a következő értékvektort. 
Egy mért érték kimaradása ilyenkor a következő N érték becslését is lehetetlenné teszt.) 


Statikus eset 


Statikus esetben ha a teljes bemeneti adatsor vagy a kimeneti adat hiányzik (missing data), akkor nem tehetünk 
mást, mint hogy töröljük a mintát a tanító (teszt) készletből. (Statikus eseten itt nem azt értjük, hogy a neurális 
modell statikus, hanem azt, hogy az egymás után generált adatsorok között nincs kapcsolat, az egymás után 
generált adatok korrelálatlanok.) 


Amennyiben az N elemű bemeneti adatvektor egy vagy több eleme hiányzik, megkísérelhetjük ezek pótlását 
(imputation). Természetesen ez általában csak akkor kecsegtet sikerrel, ha a hiányzó elemek száma jóval kisebb 
N-nél. A hiányzó adat pótlására az adatsor jellegétől függően két lehetőség kínálkozik. Általában is célszerű, de 
ha hiányzó adatok pótlására van igény, akkor mindenképp meg kell vizsgálnunk, hogy van-e összefüggés a 
bemeneti adatvektor elemei között. Ezt a kovariancia mátrix vizsgálatával végezhetjük el. 


A (13.7), (13.8) egyenletekkel definiált C kovariancia mátrix elemeiből képezhető a korrelációs együtthatók 
mátrixa, melynek elemet: 


C(i.j) 


ő ij EE 
[ ) CTG ETT (13.31) 


A C(J ) korrelációs együttható 1-hez közeli értéke az "? és "" komponensek közötti erős kapcsolatra utal, 
míg ha értéke közel 0, akkor a bemeneti vektor ezen két komponense korrelálatlannak tekinthető. 


Ha egy adatkomponens egyetlen másik komponenssel sincs kapcsolatban, akkor nincs más lehetőségünk, mint 
hogy a hiányzó bemeneti változó értéket ugyanezen változó többi mért értéke alapján becsüljük. 
Tulajdonképpen a hiányzó bemeneti paraméterre konstans -- zaj jelmodellt állítunk fel, és ez alapján becsüljük a 
hiányzó értéket. Így a hiányzó i-edik adatkomponens becslése a következő összefüggéssel történhet: 


37 jő (13.32) 


ahol 3 és 3: az (13.3) és (13.4) összefüggéssel definiált, ő pedig egy alkalmas (tipikusan 0 várható értékű, 1 


szórású Gauss vagy egyenletes eloszlású) valószínűségi változó. Természetesen használhatunk 7; -nél kisebb 
vagy nagyobb szórást 15. Gyakran egyszerűen az átlagértékkel pótoljuk a hiányzó adatokat, ekkor viszont a 
mintahalmaz statisztikai jellemzői megváltoznak az adatpótlás hatására. 


Amennyiben a korrelációs együttható mátrix bizonyos főátlón kívüli elemei 1-hez közeli értéket vesznek fel, 
akkor ezen elemek közötti kapcsolat lehetőséget teremt arra, hogy az egyik elem hiánya esetén a többi 
komponens értékéből következtethessünk a hiányzó adat valószínű értékére. Ehhez további vizsgálatokat kell 
végeznünk, hiszen a korrelációs együttható csak a kapcsolat meglétét mutatja, de nem mond semmit a kapcsolat 
jellegére. Tulajdonképpen egy regressziós problémával állunk szemben: ha az i-edik változó hiányzik, és tudjuk, 


xi B] — xhP SEL zést 


hogy az i-edik változó kapcsolatban van a j-edik változóval, akkor az ponthalmazra 


illeszkedő "7 ej függvényt kell megkeresnünk. Amennyiben ezt a regressziós függvényt megtaláltuk, 
La) 
akkora hiányzó "? értéket az: 
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zi) 


II 
agya 
ETT 
ún 
e TÉR 
égi 
lt uj 


j (13.33) 


összefüggéssel becsülhetjük. Természetesen a fenti legegyszerűbb eseten kívül előfordul, hogy 44 nem csupán 
X ; 5 a e. X ; X ; 
? -vel mutat szorosabb kapcsolatot, hanem közvetlenül vagy közvetve (1 kapcsolatban van "8 -vel, "7 


kapcsolatban van $k -val, stb.) más bemeneti komponensekkel 15. Ezen esetekben egy többdimenziós 


regressziós problémával állunk szemben, és az Cate regressziós függvényt kell megtalálnunk a hiányzó 


adat becsléséhez. 


A 13.9 ábra egy konkrét ipari folyamat modellezése során végzett vizsgálat eredményét mutatja: a felhasznált 16 
bemeneti paraméterből képzett korrelációs együttható mátrix elemeinek hisztogramja látható az ábrán. (A 13.31 
összefüggésből látszik, hogy a mátrix főátlójában minden elem 1 és a mátrix szimmetrikus, így az ábrán csak a 
főátló alatti elemek hisztogramját vettük fel. 


13.9. ábra - A korrelációs együttható mátrix elemeinek hisztogramja egy konkrét 
feladatban 


1 Fr 
Ce 


.] j 
ze 5 








Hi 

— 90 
Az ábrán látható, hogy a lehetséges j paraméterpárból nagyságrendileg 5-10 olyan pár van, amelyek 
erősebb korrelációt mutatnak (jelen esetben az együttható 0,5-nél nagyobb abszolút értékét vettük 
szignifikánsnak). 


A korreláció ugyanakkor nem minden esetben mutatja meg kellő módon a komponensek közötti összefüggést. 
Mindkét alábbi ábrán az látható, hogy a két ábrázolt paraméter között szoros kapcsolat van, mégis a 13.10 (a) 
ábrán látható helyzetben a korrelációs együttható értéke nagy (0,9 feletti), míg a 13.10 (b) ábrán kicsi (0,1 
alatti). A 13.3.1 pontban ismertetett EM algoritmus ugyanakkor eszközt adhat a kapcsolat felfedezésére, a pótlás 
segítésére. 


13.10. ábra - Egymással szoros kapcsolatban álló, de különböző korrelációs koefficienst 
adó paraméterpárok (az (a) ábrán látható estben közel 1, míg a (b) ábrán látható 
esetben közel 0) 
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0.3 tet 5] 
LESEM? 
at 1. 
11 -Ü.5 FT mg haz 7 1- ke. 
(a) (b) 


Az 13.11 ábrán demonstrációs céllal bemutatunk egy esetet, amikor a két paraméter (xi: és x2) között van 
kapcsolat, de ez egyszerű korrelációs módszerekkel nem mutatható ki jól. Ugyanakkor, ha tudunk 1s arról, hogy 
van kapcsolat a két változó között, a kapcsolat jellege más, attól függően, hogy a mintapont melyik klaszterbe 
tartozik. Ha ezt el tudjuk dönteni, pl. EM algoritmus segítségével, akkor az ismert x. alapján (x. mért, szagattot 
vonal) Jó becslést tudunk adni hiányzó x:-re. Ha a mintapontok eloszlásáról van ismeretünk (pl. az ábrán látható 
módon azok 3 klaszterben helyezkednek el) és az egyes klaszterek a priori előfordulásai azonosak, akkor a 


feltételes valószínűségek alapján az ismert x.-höz a hiányzó x: pótlására a legnagyobb valószínűséggel"! felel 
meg. 


13.11. ábra - Egymással szoros - de klaszterenként eltérő - kapcsolatban álló 
paraméterpár. Az ábrán a két paraméter különböző értékeinek előfordulási 
gyakorisága látható, szintvonalas ábrázolással. (Tehát 3 különböző csúcsa van a 
gyakoriságnak) 


XX mért 





Dinamikus eset 
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Amennyiben dinamikával rendelkező folyamat modellezésénél találkozunk hiányzó adatokkal, akkor a statikus 
esetben használtakon túlmenően új lehetőségeink nyílnak az adatok pótlására. 


Alapvetően azon változók, változócsoportok hiányzó értékeit tudjuk a statikus esethez képest jobban pótolni, 
amelyeknél legalább rövidtávú trendeket fedezhetünk fel a változó időbeli alakulásában. Az időbeli 


összefüggések felderítésére egyszerű esetekben az időfüggvény tanulmányozása 15 elegendő, de általában az 
autokorrelációs függvény vizsgálata szolgálja ezt a célt. 


R,(tr)- Eho lt) (tr 7] (13.34) 


Ha az autokorrelációs függvény a T valamilyen tartományában nagy értékeket vesz fel, akkor a hiányzó (E) 
az "i ÉT) segítségével pótolható. 

Gyakran találkozunk olyan helyzettel, mikor az autokorrelációs függvény r valamilyen tartományában — például 
0-hoz közeli r-k esetén — £-től függetlenül nagy érték. Ez arra utal, hogy rövid távon a változó erős trendet 
mutat: ilyenkor a tanító mintakészletnél lehetőségünk van a hiányzó értéket az időben megelőző és követő 
értékek alapján interpolálni, illetve a tanított hálózat működése során az időben megelőző minták alapján 
extrapolálhatunk a hiányzó aktuális értékre. 

Tehát ha az adatokat valamilyen — legalább rövidtávú trendeket generáló — folyamat hozza létre, akkor a teljes N 


elemű bemeneti vektor, vagy a kimeneti érték hiánya 15 pótolhatóvá válik. Természetesen a statikus esetre 
ismertetett módszerek a paraméter időbeli alakulását figyelembe vevő módszerekkel kombinálhatók. 


13.12. ábra - Egy konkrét — villamos energiafogyasztást jellemző — idősor, mérési 
problémák miatt hiányzó (0 értékkel feltüntetett) adatokkal 


7000 
6000 
5000 
40007 


30007 





20001 


1000 





09 1000 — 2000 — 3000 6 — 4000 5000 — 6000 6 — 7000 


5. Lényegkiemelés 


5.1. A dimenziócsokkentés (lényegkiemelés) célja 
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Sokszor az előfeldolgozás egyik fontos célja a (bemeneti) adatvektorok dimenziójának csökkentése. Míg a 
neurális háló elvileg tetszőleges dimenziószámmal képes dolgozni, a feleslegesen nagy adatdimenzió a hálózatot 
elbonyolítja, a szükséges súlyok és minták számának indokolatlan növekedéséhez vezet, és rendszerint a 
konvergenciát 15 jelentősen rontja. A nagy dimenzió okozta problémákat a dimenzió átka (curse of 
dimensionality) névvel szokták illetni. 


Tegyük fel, hogy egy N-bemenetű egykimenetű hálóval dolgozunk, és az "7 D6g262,. 37] bemeneti vektor 


komponenseinek mindegyike valamilyen határok közt vehet fel értékeket: "E 7717 4H . Akár regressziós 


(függvény approximációs) feladatot akarunk megoldani, akár osztályozási feladatot, rendszerint arra törekszünk, 
hogy azt az N-dimenziós térrészt, melyben minták előfordulhatnak egyenletesen lefedjük tanító (és teszt) 
mintákkal. Az egyenletes lefedés ugyanis biztosítja, hogy a tanított hálózat tényleges felhasználásakor 
bármilyen szituáció 15 fordul elő, egy ahhoz hasonló szituációt jelentő nem túl távol eső mintaponttal már 
tanítottuk hálózatot. Egydimenziós esetben, ha P ponttal le akarjuk fedni a használt tartományt, P mintára van 


eke Pal .. , § égit a r [dé ő [dé dl A 2 je A ,r r 
szükségünk, kétdimenziós esetben ugyanolyan sűrűségű lefedettséghez már F" minta kell. Általánosságban N 


dimenzió esetén a dimenziónként P ponttal történő egyenletes lefedéshez szükséges minták száma F sa A 13.13 
ábra N-2 esetén mutatja a dimenziónként P-—3 ponttal való egyenletes lefedést, ami általában a szóba jöhető 
térrész elég hézagos kitöltését jelenti, de két dimenzió esetén már ehhez 15 9 mintára van szükség, míg 10 
dimenzió (bemenet) esetén már közel 60000 minta kell az ilyen sűrűségű lefedéshez. 


A szükséges tanító minták száma a dimenzió számmal tehát exponenciálisan nő, ami gyakorlati feladatok 
megoldása során különösen nagy problémákat vet fel. (Szimulációs feladatoknál 15 gondot jelenthet a minták 
előállításának ideje, a szükséges tároló kapacitás, stb., de fizikai folyamatok modellezésénél, vagy gyakorlati 
osztályozási problémáknál további minták gyűjtése rendkívül drága, sőt, sok esetben nem 1s lehetséges.) 


A dimenziószám-csökkentés legegyszerűbb módja, ha a mért paraméterek egy részét elhagyjuk. Kézenfekvő 
példákat nyújt erre a problémára és eljárásra az, amikor ipari folyamatok modellezését kívánjuk elvégezni mért 
adatok alapján. A mért adatok köre a megvalósított technológiában rendszerint Jóval tágabb, mint ami a konkrét 
modellezési cél eléréséhez szükséges. (Pl. tipikusan mért és naplózott paraméter a technológiai lépések kezdeti 
és végidőpontja, ami legtöbbször irreleváns a modellezés szempontjából.) Elvileg persze megtehetjük azt 1s, 
hogy valamennyi mért paramétert felhasználjuk a modellezésben, a háló képes lehet a bemeneti súlyainak 
csökkentésével figyelmen kívül hagyni az érdektelen adatokat. Viszont lényegesen kisebb hálóméretet és jobb 
konvergenciát remélhetünk, ha a felesleges adatokat előzetes vizsgálatok során kiszűrjük, és csak a valóban 
fontosakra koncentrálunk. 


Az egyszerű adatelhagyás nem, de a diímenziószám-csökkentés megvalósítható, ha a mért paraméterek 
valamilyen lineáris kombinációja hordozza a keresett információt, vagy legalábbis az információ jelentős részét. 
Pl. ha egy folyamat hőegyensúlyát kívánjuk modellezni, akkor elég lehet a különböző — de közel azonos 
fajhővel rendelkező — anyagok tömegének összegét figyelembe venni, ami az ehhez hasonló összevonásokkal 
együtt érdemi paraméterszám csökkenést eredményezhet. Az ilyen típusú dimenziócsökkentés történhet a 
folyamat fizikai jellemzőinek elemzésével, illetve statisztikai módszerek (pl. főkomponens analízis) 
segítségével. 


13.13. ábra - Dimenziónként 3-3 ponttal lefedett kétdimenziós térrész 
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Xi 





5.2. Problémafüggetlen, általános eljárások (PCA, ICA) 


A 10. fejezetben már bemutattuk azokat a legelterjedtebb, általános, problémafüggetlen eljárásokat, amelyeket a 
dimenziószám-csökkentésben, lényegkiemelésben 15 alkalmazni szoktunk. A két leggyakrabban alkalmazott 
eljárás a főókomponens analízis (PCA), illetve a független komponenes analízis (ICA). Mindkét eljárással a 
bemeneti vektor komponeneseiből — rendszerint lineáris transzformációval — egy új (azonos méretű) vektort 
hozunk létre. Lényegkiemeléskor ennek a vektornak csak egyes komopnenseit őrizzük meg, a többit eldobjuk 
(Id. 13.14 ábra). 


Mint az említett fejezetben láttuk, a PCA eljárás azt célozza, hogy az N-dimenziós bemeneti vektorokat olyan új 
MáSN dimenziós térben ábrázoljuk, ahol négyzetes értelemben kicsi az eltérés. Tehát a bemeneti vektorokat 
transzformáljuk, majd elhagyjuk N-M komponensüket, vagy eleve olyan transzformációt használunk, amely 
létrehozza ezt a végeredményt. A transzformáció: 


x-z Tx (13.35) 


ún T 
A T-091.925.-:. Pu! transzformációs mátrixot úgy alakítjuk ki (a 11. fejezetben ismertetett módszerekkel), 
hogy X-nek az első M komponenssel való közelítése várható értékben (átlagosan) a minimális négyzetes hibát 


adja. 

Tehát: 

uz T 

£-[91,92,....par] x MEN ga a6 


A PCA közelítés eredménye a dimenziószám-csökkentés — minimális átlagos négyzetes hiba mellett. 


13.14. ábra - Bemeneti - tipikusan PCA, illetve ICA - transzformációval történő 
lényegkiemelés 
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A 13.15 ábra egy egyszerű kétdimenziós osztályozási feladaton mutatja be a főókomponens analízisen alapuló 
dimenziószám-csökkentés lehetőségét. Az ábrán látható két osztály mintái önmagában a primer módon mért két 
változó egyikének használatával sem választhatók szét, de ha egy egyszerű lineáris transzformációval 


bevezetjük az "7 "2" "lváltozót, ami éppen a mintahalmaz egyik főkomponens iránya, akkor ezen egyetlen 


változó segítségével az osztályozás elvégezhető. 


Ugyanakkor konkrét gyakorlati feladatoknál meg kell vizsgálni, hogy a legkisebb átlagos négyzetes hiba 
valóban kis információveszteséget jelent-e. Triviális példával élve: ha arcképeket akarunk felismerni, akkor a 
kis eltérések (pl. egy-egy anyajegy, forradás) viszonylag kis négyzetes hibát jelenthetnek a mintahalmazból 
kinyerhető "átlagos arcképhez" képest. Mégis éppen azt veszítjük el ezek elhanyagolása esetén, ami az arcképet 
könnyebben felismerhetővé teszi. Az összes képben nagy súllyal jelenlévő "átlagos arc" elhanyagolása a 
felismerhetőség szempontjából sokkal kevésbé lenne problematikus, mint a négyzetes értelemben kis súlyú 
részleteké. 


13.15. ábra - A mintahalmaz főkomponense mentén végzett osztályozása 





Az ICA eljárással történő lényegkiemelés csak annyiban különbözik a PCA módszerrel történőtől, hogy más 
előfeldolgozási tarnszformációt alkalmazunk. Ugyanakkor jelentős különbség, hogy itt nem a vektor közelítő 
ábrázolásának minimális négyzetes hibája a cél, hanem a transzformációs mátrix vektorainak függetlensége, 
amelyet az ICA alkalmazásakor az eloszlások magasabbrendű momentumaival mérünk. Itt 15 elmondható, hogy 
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önmagában minden feladatnál meg kell vizsgálni, hogy ez a függetlenség valóban a hasznos információk 
kiemelését jelenti-e. 


A fentiekhez még két megjegyzést kell tennünk. A PCA/ICA/egyéb transzformációk előtt legtöbbször célszerű a 
normalizálást végrehajtani, különben a transzformáció a viszonylag nagy értékű és változékonyságú eredeti 
komponenseket fogja kiemelni. A transzformáció elvégzése után a kapott komponenseket a kívánt kimeneti 
értékkel célszerű lehet korreláltani. Valószínűleg a korreláció abszolútértékének nagysága alapján jobban el 
lehet dönteni, hogy mely komponenseket őrizzünk meg és melyeket hanyagoljunk el, mint pl. PCA-nál a 
legkisebb négyzetes hibakritérium alapján. 


Természetesen a dimenziócsökkentés akkor egyszerűbb, ha a paraméterek között lineáris a kapcsolat, de 
elérhető az esetben 15, ha az adatok közötti összefüggés nemlineáris, ilyenkor az összevonandó paraméterek 
kiválasztása és az összevonás elvégzése tipikusan nagyságrendekkel nehezebb feladat. Ez esetben neurális 
módszerek használata is felmerül a dimenziócsökkentésre. Példaként az autoasszociatív hálóval való 
adattömörítési módszereket vagy a kernel PCA eljárást említhetjük (Id. 10. fejezet). 


A 13.16 ábrán látható folyamatábra azt a kettős iterációs ciklust mutatja, melyben a neurális háló tanításán túl az 
adatbázis átalakítása: dimenziószám módosítás, hihetőség vizsgálat 1s folyik a fejlesztés során. 


13.16. ábra - A neuronháló tanítása közben iteratívan végzett dimenziómódosítás 























néurális háló 
és/vagy tanítás mó- / 
dosítása 










új adatbázis kialakítása: rossz 
adatok törlése. módosítása. 











tanulási stratégia, stb igen - 
d LA mid, al. bemeneti adatvektor kompo- 
ENR a st ún a u-i hg - 
módosítása" nensek elhagyása, újak felvéte- 
Í Ni le, stb. 

nen 
feeredmények értékelése: kiugrá 
adatok, érzékenység vizssála-A . 

ARS ENE: igen 


tok. stb. Van-e kis hatású pa- 
raméter, ellentmondó vagy 
rossz adat? 


MEL 


Az ábrán bemutatott alapgondolat a következő: amennyiben a neurális modellt megtanítottuk, akkor az elért 
teszt eredmények elemzését felhasználhatjuk az adatbázis, illetve az egyes adatok minősítésére 15. A bemeneti 
vektor egyes komponenseit a modellen érzékenységvizsgálattal tesztelhetjük, tehát azt vizsgáljuk, hogy az adott 
bemenet változtatása, mekkora kimeneti változást idéz elő. Ha olyan bemeneteket találunk, melyek hatása a 
kimenetre elhanyagolható, akkor ezen bemenetek törlésével dimenziószám-csökkenést érhetünk el. Ez az eljárás 
rokon a hálózat méretének csökkentésével (pruning, ld. 4. fejezet), amikor felesleges súlyok vagy neuronok 
elhagyása a cél. Amennyiben a kiugró adatokat vizsgáljuk (tehát azokat, melyekre a neurális modell válasza 
nagyon rossz), akkor két olyan szituációval 1s találkozhatunk, mely az adatbázis minőségének javítását lehetővé 
teszi. Egyrészt kiderülhet, hogy a kiugró adat hibás, ekkor az adatvektort vagy töröljük az adatbázisból, vagy 
hibás komponensét megpróbáljuk korrigálni a 13.4 pontban leírt módszerek valamelyikével. Másrészt 
kiderülhet, hogy az adatbázis ellentmondást tartalmaz, tehát azonos (vagy közel azonos) bemeneti mintákra 
lényegesen eltérő kimenetet ad két vagy több adatvektor esetén. Ennek gyakran az az oka, hogy elhagytunk 
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olyan releváns paramétert (a dimenziócsökkentés során), mely ezt a két szituációt megkülönböztetné. (Például 
ellentmondásos adatbázishoz jutunk, ha a 13.15 ábra osztályozási feladatát az 52 változó elhagyásával, tehát 
csak "1-re támaszkodva, akarjuk megoldani. Azonos bemeneti értékhez különböző osztályokba sorolt minták 
fognak tartozni ebben a csökkentett dimenziós térben.) Ekkor a dimenziószám-növelést is vállalva fel kell 
vegyük ezt a paramétert 15 a bemeneti változók közé. 

Feladatok 

13.1 Készítsen egy kétbemenetű egykimenetű MLP hálót, amelynek első rejtett rétegében 5 tangens 


hiperbolikusz aktivációs függvényű nemlineáris feldolgozó neuron, kimeneti rétegében pedig egyetlen, lineáris 
neuron van. Tanítsa a hálót a következő Matlab kóddal megadott bemeneti és kimeneti jellel: 


x1—5346"randn(1,100); 5 egyik bemeneti komponens 
x2—-—-200430"rrandn(1,100); 5 másik bemeneti komponens 


d-x1."x14tx210.1"randn(1,10 3 kívánt válasz: 
0) ; 


Végezze el a tanítást 

e nem normált bemeneti és kimeneti jelekkel, 

e [-1,11] tartományra normált bemeneti, de nem normált kimeneti jelekkel, 

e egyaránt [-1,11] tartományra normált be- és kimeneti jelekkel, 

e egyaránt 0 átlagértékűre és egységnyi szórásúra normált be- és kimeneti jelekkel. 


A kundulásnak javasolt tanítási paraméterek (Matlab környezetben): 


MaxNumofEpochs-z 5 a tanítási ciklusok megengedett 

200; maximális száma 

CelHiba-—0.001; 5 a tanítás leállását előidéző 
célhibaszint 


Hasznos lehet, ha több maximális tanítási ciklusszám és célhiba paraméterrel is kísérletezik. Egy adott 
beállításnál végezze el a kísérletet többször (pl. 10-szer) és az egyes esetekben kapott átlagos négyzetes hibák 
sorozatait hasonlítsa össze! Mit tapasztal? 


Vigyázat, pl. Matlabban a kijelzett átlagos négyzetes hiba (MSE) abszolút hiba jellegű, ezért a hiba értéke — még 
egyformán jó approximációk esetén 1s — értelemszerűen függ attól, hogy mekkora a kimeneti tartomány. Az 
összehasonlítást ezért úgy végezze el, hogy a megtanított hálót futtassa le újra a hozzá tartozó bemeneti 
adatokkal (Matlab simÓ függvény), a kapott kimeneti eredményt transzformálja vissza az eredeti tartományba, 
és ott nézze meg a kívánt kimenettől való átlagos négyzetes eltérést! 


13.2 Oldja meg a 13.1 feladatot úgy, hogy néhány ponton impulzusszerű zajt ad a bemeneti és kimeneti jelhez. 
Pl. az alábbi Matlab kóddal módosítva a fentiekben megadott jeleket: 


x1(1,23)——40; 

111, ozjetáz; 
x1(1,88)—135; 
x2(1,2)—-50; 
szil,41)5-600; 
aíi1,661-d(1,66])1507 
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13.3 Oldja meg a 13.1 feladatot RBF háló alkalmazásával 15! (Matlab: ne a newrbeO, hanem a newrbO 
függvényt használja.) A maximális első rétegbeli neuronszám legyen 30. Vizsgálja meg az approximációt az 
első rétegbeli (Gauss aktivációs függvényű) neuronok 6-1 és c—10 értéke mellett 15! 


13.4 Készítsen egy kétbemenetű egykimenetű MLP hálót, amelynek első rejtett rétegében 5 tangens 
hiperbolikusz aktivációs függvényű nemlineáris feldolgozó neuron, kimeneti rétegében pedig egyetlen, lineáris 
neuron van. Tanítsa a hálót a következő Matlab kóddal megadott kétfajta bemeneti adattal. A kimeneti adatok 


mindkét esetre legyenek ugyanazok: 
x1-—-543:rrandn(1,100); 
x2-—8130"rrandn (100) ; 


X—[Ix1;x21]; Zzegyik fajta  bemenei jel, a 
bemenetek függetlenek 


T-[1 -1; 1 1]; Stranszformáló mátrix 
XI-T"X; S5másik bemeneti jel, a bemenetek 


kevertek, összefüggenek 


d-x1."x11tx25r0.1"randn(1 
rN) ; 


A kundulásnak javasolt tanítási paraméterek (Matlab környezetben): 


MaxNumofEpochs-2Z 5 a tanítási ciklusok megengedett 


00; maximális száma 
CelHiba-0.001; 5 a tanítás leállását előidéző 
célhibaszint 


Hasznos lehet, ha több maximális tanítási ciklusszám és célhiba paraméterrel 1s kísérletezik. A 13.1 feladathoz 
hasonlóan a kísérletet itt is végezze el többször (pl. 10-szer), és hasonlítsa össze az egyes esetekben kapott 
átlagos négyzetes hibák sorozatait! Mit tapasztal? 
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A neurális számítástechnika viszonylag rövid fejlődése során komoly viták tárgya volt, megítélése a 
szélsőségektől sem volt mentes. A neurális számítástechnika fejlődésének mintegy 50 évét komoly sikerek és 
nagy kudarcok kísérték. A sikerek általában újszerű alkalmazásokhoz kötődtek, melyek során azt lehetett 
bemutatni, hogy a , neurális" feladatmegoldás sokszor nagyságrendekkel könnyebb, (kevesebb erőfeszítéssel, 
gyorsabban ad Jó eredményt), mint a , hagyományos" megközelítés. Néhány látványos eredmény azt mutatta, 
hogy a komplex feladatok megoldásához más sem kell, mint kellő mennyiségű adat, a többit a neuronháló 
megoldja; a neuronháló az adatokból megtanulja a megoldást. Egyes sikeres alkalmazásokat már akkor 
kidolgoztak, amikor azok az elméleti eredmények még meg sem születtek, melyek megalapozzák ezen sikeres 
alkalmazásokat. A sikerek mellett azonban hamar kiderült az 15, hogy a megoldandó feladatok alapos ismerete 
nélkül összetett valódi gyakorlati problémák neurális megoldása nagyon gyakran kudarcra vezet. A megoldandó 
feladat elemzése nélkül, tudatosan összeállított adatbázis nélkül, az adatok megfelelő reprezentálása, 
értelmezése, előkészítése nélkül, esetleg előfeldolgozása nélkül az adatokból való tanulás sem lehet hatékony. 
Mind a sikerek, mind a kudarcok sürgették az elméleti alapok tisztázását: annak meghatározását, hogy milyen 


hálóarchitektúrák milyen képességekkel rendelkeznek, hogyan lehet az adatokban meglévő tudást , átadni" a 
neuronhálóknak, hogyan lehet hatékony tanuló eljárásokat konstruálni. 


A könyvben igyekeztünk bemutatni a neurális számítástechnika kialakulásának és gyors fejlődésének indítékait, 
legfontosabb jellemzőit — előnyeit, hátrányait — , a mind elméleti, mind gyakorlati szempontból sikeres neurális 
architektúrákat, a neurális hálózatok általános képességeit és néhány fontosabb alkalmazási területet. 
Összefoglaltuk a neurális hálózatoknál alapvető szerepet betöltő tanulás főbb fajtáit és a legfontosabb tanulási 
algoritmusokat. 


A bemutatott hálókon kívül jónéhány egyéb háló architektúra létezik, kidolgoztak más tanuló eljárásokat is, és 
főképp az alkalmazások köre jóval bővebb, mint ami a könyvben megjelent. A könyvben — több-kevesebb 
részletességgel — arra 15 utaltunk, hogy a neurális számítástechnika milyen elméleti alapokra támaszkodik, 
illetve megemlítettünk egy sor olyan kérdést, melyekre kielégítő megoldás ma még nem létezik. Viszonylag 
nagy teret adtunk a kernel gépek bemutatásának, és ezen belül ís az utóbbi tíz év talán legfontosabb 
eredményének, a szupport vektor gépeknek, valamint röviden bemutattuk a szupport vektor gépek 
konstrukciójának elvi hátterét 15 megadó statisztikus tanuláselmélet alapjait. 


A neurális számítástechnika fejlődésében több irány figyelhető meg. Az egyik fő irány a témakör minél 
egzaktabb matematikai megalapozására törekszik. Ez elsősorban matematikai kutatásokat igényel, a hálózatok 
képességeinek minél pontosabb meghatározását célozza, illetve arra irányul, hogy adott feladathoz (adott 
képességeket igénylő feladathoz) a megfelelő, netán az optimális háló architektúra egzakt módon 
meghatározható legyen. Ezen kutatások gyakorlati eredménye lehet, hogy a neuronhálók "tervezésére" születnek 
eljárások. E téren — elsősorban a kernel gépek témakör kialakulásával és az itt elért eredményekkel — az elmúlt 
évtizedben jelentős előrelépés történt. A szupport vektor gépek és általában 15 a kernel gépek területén elért 
ereményeket — annak ellenére, hogy ezek a gépek nem tekinthetők klasszikus neurális hálózatoknak — a neurális 
számítástechnika jelentős eredményeiként kell értelmezni. Az elkövetkező évek valószínűleg e téren további 
fontos eredményeket hoznak. Olyan kérdések megválaszolása várat magára, mint a kernel gépek 
hiperparamétereinek egzakt meghatározása, a kernel függvények alkalmazásfüggő megválasztása, de nagyon 
fontos kérdések a hálók által szolgáltatott megoldások minősítésének elvi kérdései 15. A megoldások 
minősítésére vonatkozó elméletei eredmények — pl. statisztikus tanuláselmélet általánosítási hibára vonatkozó 
korlátai — bár jelentős eredmények, de még nem biztosítják a feladathoz igazított optimális tanuló rendszer 
tervezésének lehetőségét. Általánosságban az mondható, hogy a matematikai eredmények és a gyakorlati 
alkalmazások által igényelt , aprópénzre váltott eredmények" között ma még meglehetősen nagy a távolság. Az 
alkalmazások során ma szükséges kísérletezés, próbálkozás szerepének mérséklése csak akkor várható, ha az 
elméleti eredmények a gyakorlati alkalmazások igényeihez jobban igazodnak. 


Egy másik fontos fejlődési irányt az alkalmazások által támasztott igények szabják meg. Bár a könyvben 
igyekeztünk bemutatni, hogy egyes neuronháló architektúrák univerzális feladatmegoldó eszközök, mégis 
összetett, bonyolult gyakorlati problémák megoldásában legtöbbször önmagukban nem alkalmazhatók, inkább 
csak részfeladatok megoldásában jelentenek nagy segítséget. Általában elmondható, hogy egy komplex feladat 
megoldása az esetek döntő többségében csak különböző megközelítések együttes alkalmazásával lesz sikeres. 
Az utóbbi években ezért egyre inkább megfigyelhető az a tendencia, amely a különböző eszközök ötvözésére 


380 
XMLmind XSL-FO Converter 


Összegzés, várható fejlődési irányok 


törekszik. A neurális számító eszközöket mind gyakrabban alkalmazzák együtt más, "szoft" számítási 
megközelítésekkel, a hagyományos mesterséges intelligencia eszközeivel, de a hagyományos algoritmikus 
megoldásokkal is, létrehozva a hibrid intelligens számító rendszereknek nevezett eszközöket. A könyvben 
bemutatott néhány hibrid megoldás 1s ilyen igényeket igyekszik kielégíteni. Jelenleg azonban — az adatokon, 
További gondot jelent, hogy a járulékos információ beépítése sokszor igen nehezen megoldható matematikai 
problémákra vezet. Sok feladat merül fel a bizonytalan ismeretek, hiányos, zajos adatok felhasználása terén 1s. 


A neuronhálók és általában 15 a mintákból tanuló rendszerek egy jelentős mértékben eltérő megközelítése a 
Bayes statisztikát, illetve a sztochasztikus folyamatok elméletét használja fel. A Bayes neurális hálók és a Gauss 
folyamatok témakörök egyáltalán nem szerepelnek a könyben, miközben új szemléletet hoznak be az adatokból 
való tanulásba. Különösen érdekes a kernel gépek és a Gauss folyamatok kapcsolata. Várható, hogy a 
közeljövőben megtörténik ezen kapcsolatok minél pontosabb tisztázása, ami az a priori ismeretek lényegesen 
hatékonyabb kezelésére 1s vezethet. 


Az elvi kérdéseken túl fontos kérdés az implementáció hatékonyságának növelése, a szükséges számítási 
komplexitás redukálása is. Ugyan az elmúlt néhány évben a számítási komplexitás csökkentése terén 15 fontos 
eredmények születtek — gondoljunk csak a kvadratikus programozás hatékonyságát célzó eredményekre — még 
sok tennivaló van. Az igényelt számítási komplexitás csökkentése — és a számítógépek teljesítőképességének 
növekedése egyértelműen neurális megoldások szélesebbkörű elterjedését fogják eredményezni. A számítási 
komplexitás csökkentése, illetve a hatékonyabb implementáció azért 15 fontos, mert csak így lesz lehetséges a 
mainál jóval komplexebb, a mai lehetőségeknél nagyságrendekkel több neuronból álló komplex architektúrákat 
létrehozni. A háló képessége ugyanis nyilvánvaló kapcsolatban áll a komplexitásával. Ehhez a , természetes 
neuronhálók" kellő mintát szolgáltatnak. Az implementáció kapcsán azt 15 meg kell jegyezni, hogy — annak 
ellenére, hogy döntően ma 1s általános célú számítógépeken történő szimuláció az implementáció legelterjedtebb 
formája — a célhardverek egyre gyakoribb alkalmazása várható. Egyes részfeladatok neurális megoldása ugyanis 
akkor lehet hatékony, ha a neurális megoldást kis méretben, olcsón tudjuk megvalósítani. Sok lokális, tanulni 
képes , lokális" intelligenciával rendelkező egység együttműködéséből hozhatunk létre komplex intelligens 
rendszereket. 
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1. Mátrixok és vektorok [Gol96bl], [(Róz91] 


fapd-l 2... mj-l2 kus ni 


Egy mátrix az elemek alábbi elrendezése, ahol az elemek általában számok vagy 


függvények: 
ta A LG E SLP 
ágat sm 


az Mlle 4 S (F.1) 
Az A mátrix tömör megadása: 


Az [a is (F.2) 


ahol " az i-edik sor j-edik eleme. Egy mx1 mátrix egy oszlopvektor. Az § vektor az A mátrix i-edik (i—1, 2, 
. . ., 1) oszlopvektora. Egy A mátrix felírható az oszlopvektorai segítségével: 


A - [a a. szd a, ] (F.3) 
Mátrixok összeadása, konstanssal való szorzása 


Ha az A és B mátrixok mérete azonos (mxn), akkor értelmezhető a két mátrix összeadása: 


C-A4B ahol 0-2 48, (p4) 
Az összeadás kommutatív: 

4A4tB-BtTÁA (F.5) 

Egy mátrix skalárral való szorzása a mátrix elemeinek skalárral való szorzását jelentt: 
B-kA ahol 57 (F.6) 

Mátrixok szorzása 


Ha A egy (mxp)-s mátrix és B egy (pxn)-es mátrix, akkor a két mátrix összeszorozható. A C szorzatmátrix egy 
(mxn)-es mátrix lesz: 


P 
C-AB ahol c-9va b, Vij-re 


(F.7) 


A szorzás nem kommutatív, tehát általában: 


ABzBA (F.8) 
A szorzás asszociatív: 


ABC-A(BCJ-(ABJC (pg) 


A mátrix transzponáltja 
Egy A mátrix transzponáltja az a B-A" mátrix melynek elemeirre igaz, hogy: 
b ani B hi "77 -Ie (F.10) 


A transzponált mátrixokra fennállnak a következő összefüggések: 
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(AT - A 
(ÁB) - BAT 
(A BI - AT 33" (F.11) 


Szimmetrikus mátrix, diagonálmátrix, egységmátrix 


Legyen A egy (nxn)-es mátrix. Ha A-AT, akkor az A mátrix szimmetrikus. Ha 97" "777J-t akkor A 
diagonálmátrix. 


A -diag[ Tés sss da (F.12) 

Ha a diagonálmátrix minden diagonális eleme egységnyi, akkor a mátrix az egységmátrix. 
I - diag (1, 1...) (F.13) 

Az egységmátrixszal végzett szorzásra igaz, hogy 

AI- IA -A  (F.14) 


A mátrix determinánsa 


Az A (nxn)-es kvadratikus mátrix determinánsa Al , melyet (az első sor szerint kifejtve) a következőképpen 
kapunk meg: 


ac illa " HT a Ba Ba 
ása. jea 
s ls E ÉLT nna TB 
E Ügy Ba 2 Ül 
MÁG lee 
Ba Éna Ba B (F.15) 


Szinguláris mátrix, a mátrix inverze, pszeudoinverz 


Legyen A egy (nxn)-es kvadratikus mátrix. A mátrix szinguláris, ha álz0. Ha a kvadratikus mátrix 
nemszinguláris, akkor és csak akkor létezik egy olyan B mátrix melyre 


AB- BA -I (F.16) 
A B- A" mátrixot az A mátrix (multiplikatív) inverzének nevezzük [Pen55]. 
Fontos tulajdonságok az inverzre: 


[er Aj - gy 4 
year? 


HaA, és A, [nxn]-es nemszinguláris mátrixok, 


akkor [ddA I —[4A] [AJ (F.17) 


Minden 4ecE7" mátrixhoz létezik egy egyértelmű 4 mátrix, melyet az A mátrix pszeudoinverzének vagy 
Moore-Penrose inverzének nevezünk. A pszeudoinverzre a következő összefüggések teljesülnek: 
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ÁAAA- A 
AJAA!- A! 
(AA - AA 
[AA] - AA (F.18) 


Ha A nemszinguláris, kvadratikus mátrix, akkor a pszeudoimwverz megegyezik a mátrix inverzével, vagyis: 
A! - AT 


Ha 474 vagy 44" nemszinguláris, a pszeudoinverz definiálható mint: 


A! -(ATAJ AT (F.19) 


illetve, mint 


AZATÍAAT]  (F.20) 


Az előbbi esetben szokás a mátrix pszeudoinverzét az alábbi módon is definiálni: 


A - im [ATA rnő] s (F.21) 


míg az utóbbi esetben az alábbi definíció alkalmazható: 


A! -lim AT [AAT án (F.22) 


Néhány hasznos összefüggés a pszeudoimverzre: 


(A ATA- A 
AAA z A (F.23) 


Mátrix inverziós lemma 


[4 4BCI 


A Sherman-Morrison- Woodbury formula számos esetben hasznos lehet inverzének meghatározásánál, 


[1 -CATBI 


amennyiben 4 és nemszingulárisak. 


(ABC - AT -ATBÍI-CATB] CAT (F.24) 


Vektorok lineáris függetlensége 


Legyen egy tetőn, EF vektorkészletünk az és legyenek au, 02, ..., on skalárok. 


c- 57 
-— vektort az 13! vektorok lineáris kombinációjának nevezzük. Az la! vektorok lineárisan függetlenek, 


ha a c-0 akkor és csak akkor áll fenn, ha 879 91-re 


Egy 4EE" mátrix oszlopvektorai akkor és csak akkor lineárisan függetlenek, ha 4"4 nemszinguláris, a 
sorvektorai pedig akkor és csak akkor lineárisan függetlenek, ha 44" nemszinguláris. 


A mátrix rangja 
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Az A mátrix rangja a maximális számú lineárisan független oszlopvektorainak a száma, vagy alternatív 
definícióként a maximális számú lineárisan független sorvektorainak a száma. 


Egy 4 (mxn)-es mátrix teljes rangú, ha 
rang(A)-min(m, n). (F.25) 
Megmutatható, hogy egy tetszőleges A mátrixra 
rangi A ) — rang ") — rang A "A ) — rang AA" 1 (F.26) 
Egy A egy (nxn)-es kvadratikus mátrix akkor és csak akkor nemszinguláris, ha teljes rangú, vagyis rang(AJ-—n. 
Sajátértékek, sajátvektorok 


Legyen A egy (nXn)-es kvadratikus mátrix. Ha létezik olyan 4 skalár és olyan nemzérus v vektor, melyre 
fennáll. hogy 


Áwv - Av (F.27) 
akkor 4-t a mátrix sajátértékének, v-t pedig a megfelelő sajátvektornak nevezzük. 


A mátrix összes sajátértéke megkapható a 


satb 7 63g 


karakterisztikus polinom gyökeiként. Ha a sajátértékek egyszeres gyökök, akkor minden sajátértékhez egy 
sajátvektor-készlet tartozik, melynek elemei csak egy nullától különböző szorzóban térnek el egymástól. 
Többszörös gyökök esetén egy sajátértékhez több sajátvektor 15 tartozhat. Ezek a sajátvektorok nem konstans 
szorzóban különböznek. Diagonálmátrix sajátértékei maguk a főátlóban lévő elemek. 


Ha az A mátrix nemszinguláris, akkor összes sajátértéke nullától különböző és a mátrix inverzének sajátértékei a 
mátrix sajátértékeinek reciprokat. 


Egy szimmetrikus mátrix sajátértékei mind valós számok. A szimmetrikus mátrix sajátvektorai ortogonális 
vektor-készletet alkotnak, vagyis 


vív, -0 haizi 
vív, -ü (F.29) 


A maximális és minimális sajátértékekre fennállnak az alábbi összefüggések (Rayleigh hányados) 


8 
v ÁÁ 


F 188 jájen és 4. (A) - min 
műv" (F.30) 


FHiŰ vív 





Ha egy A szimmetrikus mátrix minden sajátértéke szigorúan pozitív (4.5 0 , i—1, 2, ..., n), a mátrix pozitív 
definit. Ha a sajátértékek nemnegatívak, akkor a mátrix pozitív szemidefinit. A mátrix nemdefinit, ha van 
legalább egy pozitív és legalább egy negatív sajátértéke. 

Ha A egy olyan mátrix, hogy 474- 44" , akkor a mátrix az alábbi szorzat formájában előállítható: 


A-VAV" (F.31) 


ahol V a mátrix sajátvektoraiból, mint oszlopvektorokból képezett ortogonális mátrix, A pedig a sajátértékek 
diagonálmátrixa. 


A mátrix nyoma 


Egy kvadratikus A (nXxn)-es mátrix nyoma a főátlóbeli elemeinek az összege. A mátrix nyoma a sajátértékeimeek 
összegeként 15 meghatározható. 
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A 
TA (F.32) 


2. Gauss elimináció [Gol96b] 


Az 4Ax-b lineáris egyenletrendszer megoldására gyakran használt univerzális módszer a Gauss elimináció. Az 
egyenletrendszer mátrixai az alábbiak: 


ea Ba An Ai a 
A-n fa 77 Sal zel] h-t 
ő] Ha Ke Hm j An 5 a (F.33) 


ahol 4 az együttható mátrix, h egy adott ismert értékekből álló vektor, az x vektor pedig az ismeretleneket 
tartalmazó vektor. Egyszerűbb esetben az 4 mátrix "7" -es, de az algoritmus ?X"? -es esetre 15 alkalmazható. 


A megoldás bemutatása során a változók felírását gyakran elhagyjuk és az egyenletrendszert az alábbi kibővített 
mátrix segítségével írjuk fel: 


an As a A 
[Ah] - ő É ; Ban 8 
ma dm 7 Am 51. (F.34) 


Látható, hogy a kibővített mátrix az együttható mátrix kiegészítve a b vektorral. A kiegészített [8 h mátrix és 
az eredeti A mátrix rangjára vonatkozóan: 


- ha Fngi4) — rangilAh]-n akkor egy egyértelmű megoldás van. 


- ha Fmzi 41 — rangilAh]i en akkor az egyenletnek végtelen sok megoldása van. Ilyen esetben lehet csökkenteni az 
ismeretlenek számát, majd valamilyen optimális megoldást (pl. a négyzetes hibaminimalizáló megoldás) 
keresni. 


- ha nel) c rangi láb]! akkor nincs megoldás. 

A mátrixon az egyenletrendszer eredményének változása nélkül az alábbi elemi sor-műveletek végezhetők: 
e egy vagy több egyenlet (sor) szorzása egy c konstanssal, 

e két vagy több egyenlet (sor) felcserélése, 

e egy egyenlet (sor) c-szeresének hozzáadása egy másik sorhoz. 

A fentiek mellett az alábbi, oszlopok cseréjével járó művelet 15 elvégezhető: 


az egyenletrendszerben a változók sorrendjét felcseréljük (ez oszlopok cseréjét jelenti, kibővítettmátrix esetén az 
utolsó oszlop kivételével). 


Az alap eljáráshoz elegendő az első három elemi sor-művelet, de bizonyos esetekben (például a pontosság 
növeléséhez) az utolsó műveletet 15 alkalmazzuk. Erről a későbbiekben lesz szó (Id. pivotolás). 


A fenti műveletek segítségével a mátrixot, illetve az egyenletrendszert egy olyan egyszerűbb alakra (pl. 
háromszög-, diagonál mátrix) hozhatjuk, amely esetén egyszerű a megoldás számítása. 


d d s d B 
0 ay sa b 


1 0 a €1(F.35) 


az eredeti egyenletrendszert egy Fs-d felső háromszögmátrixot (E ) tartalmazó egyenletrendszerré alakítjuk, 
ami már egyszerű behelyettesítéssel megoldható. Az algoritmus egy köztes lépésében a 
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an da an B 
0 day s dm B, 


úgy os oz BH 
Ú da sa B , (F.36) 


az "4 kinullázásához a második sort elosztjuk az ?x generáló , pivot? elemmel majd ennek 8: szorosát kivonjuk 
a harmadik sorból. Amennyitben a pivot elem helyén 0 áll, sorcserét kell alkalmazni (ha nincs nem 0 sor, akkor 
az adott oszlop megfelel az elvárásoknak). 


A "pivot" vagy generáló elem, amint azt láthattuk fontos szerephez jut az algoritmus során. A számítási 
pontosság növelésére szolgál a pivotolás, amikor ezt a pivot elemet tudatosan választjuk ki, ahol a cél egy nagy 
értékü elem használata. Ez az elem sor illetve oszlop cserével mozgatható a megfelelő pozícióba. A részleges 
pivotolás (partial pivoting ) esetén az adott oszlop abszolút értékben legnagyobb elemét használjuk, míg a teljes 
pivotolás (complete pivoting) esetén a mátrix oszlopait és sorait 15 cserélve mozgatjuk az abszolútértékben 


legnagyobb elemet a megfelelő pozícióba. Ebben az esetben (oszlopok cseréjénél) az ismeretlenek sorrendje 15 
változik. A leggyakrabban elegendő az egyszerübb részleges pivotolás alkalmazása. 


A fentiekhez hasonlóan egy másik algoritmus, a Gauss-Jordan elimináció célja az alábbi diagonális mátrix alak: 
ar 0-0 H 
d gy os Ah 
apon A] (F.37) 


amit a Gauss eliminációnál alkalmazott műveletekkel érhetünk el. Ebben az esetben nincs szükség 
visszahelyettesítésekre, az eredmény azonnal számítható. 


3. A reduced row echelon alak 


A mátrix redukált sor echelon alakja (RRE alak) (Reduced Row Echelon Form — RREF) a következő feltételeket 
teljesíti: 


e Minden nem csupa 0-ból álló sor legelső nem 0 eleme 1-es (ezt vezető 1-esnek nevezzük). 
Ha egy sor vezető 1-ese az r-edik oszlopban van, akkor 

e az r-edik oszlop össze többi eleme 0. 

e. a későbbi sorok vezető 1-esei az r-edik oszloptól jobbra kell legyenek 

A csak nulla elemeket tartalmazó sorok a mátrix aljára csoportosítottak. 

Egy mátrix RRE alakja egyértelmű. 


Az alábbi mátrix egy példa a reduced row echelon alakra: 


]l ú 2 ü 4 
ü 1 3 ü 1 
üü ül z 
ü ü ü Ü 0 


(F.38) 
Látható, hogy ez az alak a Gauss eliminációnál tárgyalt elemi műveletekkel előállítható. 


Az LS-SVM redukciójánál (az LS7--SVM support vektorainak meghatározásához) a RRE alakot biztosító 
algoritmust egészítjük ki. Az algoritmus során figyeljük a pivot elem értékét és amennyiben az egy általunk 
meghatározott " tolerancia értéknél kisebb, az adott oszlopot kinullázzuk (nem vesszük figyelembe). Az 
algoritmus menete — melynek alapja a részleges pivotolással végzett Gauss-Jordan elimináció — az alábbi. 
Iteratívan lépdeljünk végig a mátrix főátlója mentén: 


1. Legyen j az első nem csupa nulla oszlop indexe. 
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2. Határozzuk meg a j-edik oszlopban az ! 23 sorindexű elemek közül a legnagyobbat. Jelöljük ezt az elemet p- 
vel. 


3. Ha P:" (ahol 7 a tolerancia érték) akkor nullázzuk ki az oszlop alsó részét (a -edik oszlop azon elemeit, 
melyekre a sorindex "J ); 


egyébként jegyezzük meg az oszlop indexét, mert bázis, és ha "7! cseréljük fel a p elemet tartalmazó sort a j- 
edik sorral. Így az oszlop legnagyobb eleme, p — az ún. generáló elem, ami egyben az i-edik sor balról első nem 
nulla eleme, a pivot elem — a főátlóba kerül. Osszuk el ezt a sort p-vel, ezáltal p helyére 1 kerül, és vonjuk ki 
ennek a sornak megfelelő konstans-szorosait a többi sorból, hogy ezáltal kinullázzuk a többi sor j-edik 
pozícióban lévő elemeit. 


4. Növeljük meg j-t: J74t! és folytassuk az egész eljárást a második lépéstől. 


Ez az eljárás visszaadja az 7 tolerancia értelmében lineárisan független oszlopok listáját (azaz az LS2-SVM-ben 
használt szupport vektorokat). 


4. Feltételes szélsőérték-keresés, Lagrange 
multiplikátoros módszer [Fle86, Boy04] 


A Lagrange multiplikátoros módszer egy hatékony eljárás a feltételes szélsőérték-keresési feladatok 
megoldására. 


Legyen adott egy ix) függvény x ER" és adottak a § 1x1-0 feltételek. Keressük f"! szélsőértékét (minimumát 


vagy maximumát) úgy, hogy közben a f (x1-0 feltételek is teljesüljenek. 


Definiáljuk az alábbi Lagrange függvényt: 


Llej- flx)- 2) őzdúj 


[a e 


ahol az " együtthatók a Lagrange multiplikátorok. Figyeljük meg, hogy mind a szélsőértékfeladat, mind a 
feltételek figyelembevétele szerepel a Lagrange függvény szélsőértékére vonatkozó feladatban. Ugyanis 


V.Llna)- Vr )-v.Zez Ír) eg 


vagyis 


V.Lbeej-0 s V.f(x-v. Fog (a) 
; (F.41) 


v.Llx.ej-0 5 €lx1-0 (R4) 


A következő egyszerű kétdimenziós feladaton illusztráljuk a Lagrange multiplikátoros módszer működését. 


[x1- 34 xi 


Legyen a kétdimenziós függvényünk J . Keressük ennek a függvénynek a minimumát azzal a 


feltétellel, hogy § tt! vagyis § lsájtágetzt az függvény feltétel nélküli minimuma az x-[D.oT 
pontban van. Ez a pont azonban nyilvánvalóan nem elégíti ki a " (x1-0 mellékfeltételt. A megfelelő Lagrange 
függvény: 

LÍxel- 2xp hat — [zi xi -1] (F.43) 


Melynek x szerinti gradiense 
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kana 


L(x at) 
öx 

at [der] 

Öx,, 


st --Ín b xi -1] 





zdx—2ax 5Ű 





z4x — 2ax,sŰ 





(F.44) 


A két első egyenletből 4-2 illetve 4-1 adódik, mely értékek mellett (x) minimumát az 9 707.5H 


kapjuk (F.3.1 ábra). 


pontban 


F.3.1. ábra - Mintapélda a feltételes szélsőérték-keresésre. A vékonyabb vonallal rajzolt 
ellipszisek a minimalizálandó f(x) függvény szintvonalai, a vastagabb vonallal rajzolt 
kör pontjai a mellékfeltételnek megfelelő pontok. A két fekete pont a feltételes 
minimumot biztosító pontok. 





























) (4 Ts minimumpontok 
, ük 1 Fa 


Ax 1 


Az ábrán jól látható, hogy az fÜx) függvény által meghatározott szintvonalak gradiensvektorai a feltételes 
minimumpontokban azonos irányúak, mint a mellékfeltételt megadó kör gradiensvektorai, vagyis a 
minimumpontokban a két görbe érinti egymást. 


5. Karush-Kuhn-Tucker feltételek [Cri00], [Boy04] 


A Karush-Kuhn-Tucker (KKI ) feltételek nemlineáris optimalizálási feladatok megoldását biztosító feltételek. A 
problémakör a Lagrange multiplikátoros módszer általánosításának tekinthető. Míg a Lagrange multiplikátoros 
módszer olyan feltételes szélsőérték-keresési feladatok megfoldásánál alkalmazható, ahol a feltételek 
egyenlőség formájában vannak megfogalmazva, a KKI optimalizálásnál az egyenlőség típusú feltételek helyett 
vagy azok mellett egyenlőtlenség típusú feltételek (15) szerepelnek. 
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f(x) xer a következő nemlineáris optimalizálási feladatot egy £ EE e (xjavex tartománnya (x)-0gyen 


egy konvex! folytonosan differenciálható függvény és legyenek a i-], ..., M és a Vizi 
. .., L függvények affin? függvények. 


Keressük 


mirf (x-et, x c A úgy, hogy közben a 
glxi20 ésa 


h(x1-0 feltételek is teljesüljenek. (F.45) 


Definiáljunk egy általánosított Lagrange függvényt a következő formában: 


L(x.e,)-f (x)- ag, [x- ah, (3) 
1-1 7 (F. 46) 


ahol 57" és 5. ER Lagrange multiplikátorok. 


Annak szükséges és elégséges feltétele, hogy egy Y ez a fenti feladat optimuma legyen az, hogy létezzenek 


olyan [B ) , a e[0.c0) , FEE változók, hogy 


össssöt (EA7) 


a e [0.07 


B org igaz, hogy bármely xEE" és és PE E mellett 


LÍx BIE Le sZlxeé B] (F.48) 
vagyis X egy nyeregpont (saddle point). 
Elsődleges és másodlagos feladat 


Az SVM-nél felmerülő elsődleges (primal) optimalizálási feladat minimumkeresési feladat egyenlőtlenség 
típusú mellékfeltételekkel. 


Keressük 


min f [x]-et, xe X úgy hogy közben a 
na Fő 
gÍxj20 feltételek is teljesüljenek. (F.49) 


A megfelelő általánosított Lagrange függvény 


[lej flx)- 2 [a] (ss 


Feltételezve, hogy 00) egyértelmű minimum, minden rögzített 420 mellett definiálható egy Lagrange 
függvény, 


W 4xrl1—4luljá 4 4r]I1- 4 
! Egy valós értékű f(x) xem" függvény konvex, ha 7 SUEE es bármely 4 e (0.1) mellett 71 sz Ju) fogra) fu) 
kétszer differenciálható függvény konvex, ha a második deriváltakból képezett Hesse mátrix pozitív definit. 
f(lxj- Ax-b 


. Egy 


? Egy affin függvény felírható az alábbi formában: 
konvex Is. 


, ahol A valamilyen mátrix és b egy vektor. Egy affin függvény egyben 
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Ole): minL(xa) 5) 
mely egyedül § függvénye. 

Ennek megfelelően megfogalmazható a duális (dual) optimalizálási feladat: 
maximalizáljuk 0 (u )-t 


úgyhogy a,z0 7-1,4,....M, (F.52) 


ahol £le1-t gyális kritériumfüggvénynek nevezzük. A duális feladat megoldása nem feltétlenül egyszerűbb, mint 
az eredeti feladat megoldása. A duális feladat előnye, hogy a duális kritériumfüggvény csak § függvénye. 


Az SVM esetén a duális feladat az " Lagrange multiplikátorok kvadratikus függvénye. 


Tr l - 
Ela] a malt Eu (F.53) 


az 5 Lagrange multiplikátorokra vonatkozó feltételekkel: se és Ezalsée ahol d; i—1,2,....P az SVM 
feladatnál megfogalmazott kívánt válaszokat jelöli. Az SVM duális feladatát kvadratikus programozással 
oldhatjuk meg. 
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C. függelék - Jelölések 


Szimbólumok 
a vektor 
a transzponált vektor 
B az a vektor euklideszi normája, a vektor 
hossza 
Bi, az a vektor p-normája 
A mátrix 
AT inverz mátrix 
fúj pszeudó-inverz (Moore-Penrose inverz) 
mátrix 
[Al az A mátrix determinánsa 
LITÁ) az A mátrix alsó háromszögmátrixa 
15 eltolás 
c autókovariancia mátrix 
C(.) kritérium függvény 
CS az N-dimenziós folytonos függvények 
halmaza 
e kívánt válasz 
Én várható érték operátor 
ja VC dimenzió 
H Hesse mátrix 
I egységmátrix 
JI(w) elsődleges kritérriumfüggvény SVM-nél 
hr diszkrét időindex 
E kernel mátrix 
K(X.Z) kernel függvény 
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L(w) 


L.(w) 


I(w.,b,a) 


Jelölések 


veszteségfüggvény, hibafüggvény 


e  érzéketlenségi sávval rendelkező 
veszteségfüggvény 


Lagrange függvény 


LIKE: HeGölkelihood függvény 


pi:lej 


Pix]oi 


2(0 


O(ao) 


R(w) 
TR" 
tr(A ) 


xex 


"ri] 


várható érték vektor 
bázisfüggvények száma 


a bemeneti minták dimenziója 


valószínűség, valószínűség 
süűrűségfüggvény 
feltételes valószínűség 
sűrűségfüggvény 


mintapontok száma 


feltételes valószínűség 


duális kritériumfüggvény osztályozós 
S VM-nél 


duális kritériumfüggvény regressziós 
S VM-nél 


autókorrelációs mátrix 
valós számok halmaza 


kockázat, mint a súlyvektor függvénye 


valós szám N-esek halmaza 


az A mátrix nyoma 


bemenet és a bemeneti tér 


az x változó átlaga (súlyozott átlaga) 


az x változó középértéke 


kimenet és a kimeneti tér 


egydimenziós kimenet 
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ÖNT 


Wo 


OC.) 


IV 


5(.,.) 


Rövidítések 


AIC 


APEX 


BP 
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súlyvektor 

a súlyvektor megváltozása, módosítása 
eltolás 

súlymátrix 


ordó jelölés 


gyengítő változó 

sajátérték 

tanulási tényező 

szélesség paraméter 

Lagrange multiplikátor 
Lagrange multiplikátor 
általánosított hiba, érzékenység 
hiba 

eleme egy halmaznak szimbólum 
tartalmazás szimbólum 

únió szimbólum 

metszet szimbólum 


az a-nál nagyobb vagy azzal egyenlő 
legkisebb egész 


a egész része 
gradiens operátor 


Kronecker delta 


Akaike information criterion 
Adaptive principal component extraction 


back-propagation 
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BPIT 
CART 
CMAC 
DCT 
EÍV 
EM 
ERM 
FIR 


FIR-MLP 


FPE 
GHA 
HMOE 
ICA 

IIR 
KBANN 
KKT 
KLT 
LMS 

LS 
LS-SVM 
LS2-SVM 
LvO 
MDL 
ML 

MLP 


MOE 


Jelölések 


back-propagation through time 
classification and regression tree 
cerebellar model articulation controller 
discrete cosine transform 
errors-in-variables 
expectation-maximization 

empirical risk minimization 

finite impulse response 


finite  íimpulse 
perceptron 


response — multilayer 


final prediction error 

generalised Hebbian algorithm 
hiererchical mixture of experts 
independent component analysis 

infinite impulse response 

knowledge based artificial neural network 
Karush-Kuhn-Tucker 

Karhunen-Loeve transform, 

least mean sguares 

least sguares 

least sguares support vector machine 

LS - least sguares support vector machine 
learning vector guantization 

minimum description length 

maximum likelihood 

multilayer perceptron 


mixture of experts 
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MRAC 


MSE 


NARX 


NARMAX 


NFIR 


NIC 


NJB 


NOE 


OBD 


OBS 


OLS 


PCA 


RBF 


RLS 


RREF 


RRKRR 


RSVM 


RIRL 


SLT 


SMO 


SOM 


SRM 


SSVM 


SVM 


IDNN 


TSP 


Jelölések 


model reference adaptive control 
mean sguared error 


nonlinear autoregressive with exogenous 
input 


nonlinear autoregressive moving average 
with exogenous input 


nonlinear FIR 

neural information criterion 
nonlinear Jenkins-Box 
nonlinear output error 

optimal brain demage 

optimal brain surgeon 
orthogonal least sguares 
principal component analysis 
radial basis function 

recursive least sguares 

reduced row echelon form 
reduced rank kernel ridge regression 
reduced support vector machine 
real time recursive learning 
statistical learning theory 
seguential minimal optimization 
self-organizing map 

structural risk minimization 
smooth support vector machine 
support vector machine 

time delay neural network 
traveling salesman problem 
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Jelölések 


VC Vapnik-Chervonenkis 


WMSVM —— weighted margin support vector machine 


397 
XMLmind XSL-FO Converter 


D. függelék - Irodalom 


[Aar89] Aart, E. - Korst, J. "Simulated Annealing and Boltzmann Machines", John Wiley, New York, 1989. 


[Abu90] Abu-Mostafa,Y. S. "Learning from Hints in Neural Networks", Journal of Complexity, Vol. 6. pp. 192- 
198, 1990. 


[Abu95] Yaser S. Abu-Mostafa, "Hints" Neural Computation, Vol. 7. pp. 639-671, 1995. 


[Aga01] Agarwal, R. P. — Meehan, M — O" Regan, D. "Fixed Point Theory and Applications", Cambridge 
University Press, 2001. 


[Aka69] Akaike, H. "Fitting Autoregressive Models for Prediction", Ann. Ins. Stat. Math. Vol. 21. pp. 243-347. 


[Aka74] Akaike, H. "A New Look at the Statistical Model Identification", IEEE Trans. on Automatic Control, 
AC-19. No. 6. pp. 716-723. 1974. 


[Alb7S] Albus, J. S. "A New Approach to Manipulator Control: The Cerebellar Model Articulation Controller 
(CMAC)", Transaction of the ASME, Sep. 1975. pp. 220-227. 


[Ama95] Amari, §. - Cichocki, A. - Yang, H. H. "Recurrant Networks for Blind Separation of Sources", Proc. of 
the International Symposium on Nonlinear Theory and its Applications, NOLTA-95, Las Vegas, USA, pp. 37- 
42. 1995. 


[Ama97] Amari, S. - Chen, T. - Cichocki, A. "Stability Analysis of Learning Algoritms for Blind Source 
Separation", Neural Networks, Vol. 10. No. 8. pp. 1345-1351. 1997. 


[Ama99] Amari, §.- Wu, S. "Improving support vector machine classifiers by modifying kernel functions", 
Neural Networks, Vol. 12. pp. 783-789. 1999. 


[Bab89] Baba, N. "A New Approach for Finding the Global Minimum of Error Function of Neural Networks" , 
Neural Networks, Vol. 2. pp. 367-373. 1989. 


[Bac91] Back, A. D. - Tso1, A. C. "FIR and IIR Synapses, a New Neural Network Architecture for Time Series 
Modeling", Neural Computation, Vol. 3. pp. 375-385. 1991. 


[Bal89] Baldi, P. - Hornik, K. "Neural Networks and Principal Component Analysis: Learning from Examples 
Without Local Minima" , Neural Networks, Vol. 2. No. 1. pp. 53-58. 1989. 


[Bal00] Balestrino, A. - Caiti, A. "Approximation of Hammerstein/Wiener Dynamic Models, IEEE 
International Joint Conference on Neural Networks IJCNN 00, Vol. 1, pp. 1070-1074., 2000. 


[Bar93] Barron, A. R. "Universal Approximation Bounds for Superposition of Sigmoidal Functions", IEEE 
Trans. on Information Theory, Vol. 39. No. 3. pp. 930-945. 1993. 


[Bat92] Battiti, R. "First- and Second-Order Methods for Learning: Between Steepest Descent and Newton s 
Method", Neural Computation, Vol. 4. pp. 141 166. 1992. 


[Bau89] Baum, E. B. - Haussler, D. "What Size Net Gives Valid Generalization?", Neural Computation, Vol. 1. 
No. 1. pp. 151-160. 1989. 


[Bau0l] Baudat G. - Anouar, F. "Kernel-based methods and function approximation"7. International Joint 
Conference on Neural Networks, pp. 1244—1249, Washington, DC, 2001. 


[Bea94] Beaufays, F. - Wan, E. "Relating Real-Time Backpropagation and Backpropagation-Through-Time: An 
Application of Flow Graph Interreciprocity", Neural Computation, Vol. 6. pp. 296-306. 1994. 


[Bek93] Bekey, G. - Goldberg, K. Y. "Neural Networks in Robotics", Kluwer Academic Publisher, Boston 
1993. 


398 
XMLmind XSL-FO Converter 


Irodalom 


[Bel95] Bell, A. - Sejnowsky, T. "Blind Separation and Blind Deconvolution: an Information/ Theoretic 
Approach", Proc. of the 1995 IEEE International Conference on Acoustics Speech and Signal Processing, 
Detroit, USA, pp. 3415-3418. 1995. 


[Ber01] Berényi, P. - Horváth, G. - Pataki, B. — Strausz, Gy. "Hybrid-Neural Modeling of a Complex Industrial 
Process" Proc. of the IEEE Instrumentation and Measurement Technology Conference, IMTC 2001. Budapest, 
Vol. III. pp.1424-1429. 2001. 

[B1595] Bishop, C. M.: "Neural Networks for Pattern Recognition", Clarendon Press, Oxford, 1995. 

[Bi1s506] Bishop, C. M.: "Pattern Recognition and Machine Learning ", Springer, 2006. 


[Bos92] Boser, B. - Guyon, I. - Vapnik, V.7A Training Algorithm for Optimal Margin Classifier" Proc. of the 
5" Annual ACM Workshop on Computational Learning Theory, pp. 144-152. 1992. 


[Bos97] Bossley, K. M. "Neurofuzzy Modelling Approaches in System Identification", Ph.D Thesis, University 
of Southampton, 1997. 


[Bou95] Boutayeb, M., - Darouach, M. "Recursive Identification Method for MISO Wiener-Hammerstein 
Model", Automatica, Vol. 40. No. 2. pp. 287-291. 1995. 


[Boy04] Boyd, S. - Vandenberghe, L. "Convex Optimization", Cambridge University Press, 2004. 


[Bre84] Breiman, L. - Friedman, J. H. - Olshen, R. A. - Stone, C. J. "Classification and Regression Trees", 
Technical Report, Wadsworth International, Monterey, CA. 1984. 


[Bre96] Breiman, L. "Bagging Predictors", Machine Learning, Vol. 24. No. 2, pp. 123-140, 1996. 


[Bro93] Brown, M. - Harris, C. J. - Parks, P. "The Interpolation Capability of the Binary CMAC", Neural 
Networks, Vol. 6. No. 3. pp. 429-440. 1993. 


[Bro94] Brown, M. - Harris, C. "Neurofuzzy Adaptive Modelling and Control", Prentice Hall, New York, 1994. 


[Bru90] Bruck, J. "On the Convergence Properties of the Hopfield Model", Proceedings of the IEEE, Vol. 78. 
No. 10. pp. 1579 1585. 1990. 


[Bry69] Bryson, A. E. and Ho, Y.C. , Applied Optimal Control", Blaisdell, New York, 1969. 


[Car89] Carroll, S. M. - Dickinson, B. W. , Construction of Neural Nets Using the Radon Transform" Proc. of 
the Int. Conference on Neural Networks, Vol. I, pp. 607-611. New York, 1989. 


[Car94] Cardoso, J. F. - Laheld, B. "Egurvariant Adaptive Source Separation", IEEE Trans. on Signal 
Processing, 1994. 


[Cawo2] Cawley, G. C. - Talbot, N. L. C. "Reduced Rank Kernel Ridge Regress10n" Neural Processing Letters, 
Vol. 16. No. 3. pp. 293-302, 2002. 


[(Cha87] Chan, L. W. - Fallside, F. "An Adaptive Training Algorithm for Backpropagation Networks", 
Computer Speech and Language, Vol. 2. pp. 205-218. 1987. 


[Cha02] Chapelle, O. - Vapnik, V. - Bousguet, I. - Mukherjee, S."Choosing multiple Parameters for Support 
Vector Machines", Machine Learning, Vol. 46. No. 1. pp. 131-159. 2002. 


[Cha06] Chapelle, O. — Schölkopf, B. — Zien, A."Semi-Supervised Learning", The MIT Press, Cambridge, MA. 
2006. 


[Che$89] Chen, S. - Billings, S. A. - Luo, W. , Orthogonal Least Sguares Methods and their Application to Non- 
linear System Identification", International Journal of Control, Vol. 50. pp. 1873-1896, 1989. 


[Che91] Chen, S. - Cowan, C. - Grant, P. , Orthogonal Least Sguares Learning Algorithm for Radial Basis 
Function Networks", IEEE Trans. on Neural Networks, Vol. 2. pp. 302-309, 1991. 


399 
XMLmind XSL-FO Conrverter 


Irodalom 


[Che04] Chen, B., Chang, M., Lin, C., , Load Forecasting Using Support Vector Machines: A Study on 
EUNITE Competition 2001", IEEE Transactions on Power Systems, Vol. 19, No. 4, pp. 1821-1830. 2004. 


[Cho97] Cho, S. - Cho, Y. - Yoo, S. "Reliable Roll Force Prediction in Cold Mill Using Multiple Neural 
Networks", IEEE Trans. on Neural Networks, Vol. 8. No. 4. pp. 874-882. 1997. 


[Cho98] Choi, S. - Cichocki, A. - Amari, S. "Flexible Independent Component Analysis," Proc. of the IEEE 
Workshop on Neural Networks for Signal Processing, Cambridge, England, 31. August - 3. September, 1998. 


[Cic93] Cichocki, A. - Unbehaunen, R. "Neural Networks for Optimization and Signal Processing", John Wiley 
$ Sons, New York, 1993. 


[Ciz04] Cizek, P., "Asymptotics of least triimmed sguares regression", Discussion Paper 72, Tilburg University, 
Center for Economic Research. 2004. 


[Com94] Comon, P. "Independent Component Analysis, A New Concept?", Signal Processing, Vol. 36. No. 2. 
pp. 287-314. 1994. 


[CovóS] Cover, T. M "Geometrical and Statistical Properties of Systems of Linear Inegualities with Application 
in Pattern Recognition", IEEE Trans. on Electronic Computers, EC-14. pp. 326-334. 1965. 


[Cra96] Craven, M. W. "Extracting Comprehensible Models from Trained Neural Networks" Ph.D. thesis, 
University of Wisconsin, Madison, USA, 1996. 


[Cri199] Cristianini, N. - Campbell, C. - Shawe-Taylor, J. "Dynamically Adapting Kernels in Support Vector 
Machines" in: Kearns M., Solla S., Cohn D., (eds.) Advances in Neural Information Processing Systems (NIPS) 
Vol. 11, MIT Press. 1999, 


[Cr100] Cristianini, N. - Snawe- Taylor J. "Support Vector Machines and Other Kernel-based Learning Methods, 
Cambridge University Press, 2000. 


[Cyb89] Cybenko, G. "Approximation by Superpositions of a Sigmoidal Function", Mathematical Control 
Signals Systems, Vol. 2. pp. 303-314, 1989. 


[DeCO2] DeCoste, D. - Schölkopf, B. "Training Invariant Support Vector Machines" Machine Learning, Vol. 
46. pp. 161-190. 2002. 


[De186] Deistler, M. "Linear Dynamic Errors-in- Variables Models", Journal of applied Probability, Vol. 23. pp. 
23-39. 1986. 


[Dem77] Dempster, A. P. - Laird, N. M. - Rubin, D. B. "Maximum Likelihood from Incomplete Data via the 
EM Algorithm (with discussion)", Journal of the Royal Statistical Society (Series B), Vol. 39. No. I. pp. 1-38, 
1977. 


[D1a96] Diamantaras, K. I .- Kung, S. Y. "Principal Component Neural Networks Theory and Applications", 
John Wiley and Sons, New York. 1996. 


[Dre05] Dreyfus, G. "Neural Networks. Methodology and Applications", Springer, 2005. 


[Dru93] Drucker, H. - Schapire, R. E. - Simard, P. "Boosting Performance in Neural Networks", International 
Journal of Pattern Recognition and Artificial Intelligence, Vol. 7. No. 4, pp. 705-719. 1993. 


[Dru99] Druckner, H., Wu, D., Vapnik, V., , Support Vector Machines for Spam Categorization", IEEE 
Transactions on Neural Networks, Vol. 10, No. 5, pp. 1048-1054. 1999. 


[Dun93a] Dunay, R. - Horváth, G. "Modified CMAC Neural Network Architectures for Nonlinear Dynamic 
System Modelling", Proceedings of the International Conference on Artificial Neural Networks (ICANN 93), 
Amsterdam, Holland, p. 473. 1993. 


[Dun93b] Dunay, R. - Pataki, B. - Horváth, G. "Some Further Possibilities of the Application of Neural 
Networks for Nonlinear Dynamic System Modelling", Proceedings of the First European Congress on Fuzzy 
and Intelligent Technologies, EUFIT 93, Aachen, Germany, Vol. 2. pp.930-936. 1993. 


400 
XMLmind XSL-FO Conrverter 


Irodalom 


[Egm02] Egmont-Petersen M. - de Ridder D. - Handels H. "Image Processing With Neural Network — A Review 
", Pattern Recognition, Vol. 35, No. 10, pp. 2279-2301, 2002, 


[E1d97] Eldracher, M. - Staller, A. - Pompl, R. , Adaptive Encoding Strongly Improves Function Approximation 
with CMAC", Neural Computation, Vol. 9. pp. 403-417. 1997. 


[EII91] Ellison, D.: "On the Convergence of the Multidimensional Albus Perceptron", 7he International Journal 
of Robotics Research, Vol. 10. No. 4. pp. 338-357. 1991. 


[Far90] Farrell, J. A. - Michel, A. N. "A Synthesis Procedure for Hopfields Continuous-Time Associative 
Memory" , IEEE Trans. on Circuits and Systems, Vol. 37. No.7. pp. 877 884. 1990. 


[Fle88] Fletcher, R. "Practical Methods of Optimization", John Wiley, 1988. 


[Föl89] Földiák, P. "Adaptive Network for Optimal Linear Feature Extraction" Proc. of the 1989 Intnt. Joint 
Conference on Neural Networks, Vol. 1. pp. 401-405. 1989. 


[Fre95] Freund, Y. "Boosting a Weak Learning Algorithm by Majority" Information and Computation, Vol. 
121. No. 2. pp. 256-285, 1995. 


[Fre97] Freund Y. - Schapire, R. E. , A Decision-Theoretic Generalization of On-line Learning and its 
Application to Boosting", Journal ofComputer and System Sciences, Vol. 55. No. 1. pp. 119-139, 1997. 


[Fuk88] Fukushima, K. "Neocognitron: A Hierarchical Neural Network Capable of Pattern Recognition", 
Neural Networks, Vol. 1. No. 2. pp. 119-130. 1988. 


[Fun8$9] Funahashi, K. I. "On the Approximate Realization of Continuous Mappings by Neural Networks" , 
Neural Networks, Vol. 2. No. 3. pp. 183-192. 1989. 


[Fun03] Fung, G. - Mangasarian, O. L. - Shavlik, J. W. "Knowledge-Bases Support Vector Machine Classifiers" 
In: S. Becker, S. Thrun, K. Obermayer (eds.) Advances in Neural Information Processing Systems, Vol. 15, pp. 
521-528. MIT Press, Cambridge, MA. USA. 2003. 

[Gal89] Galar, R. "Evolutionary search with soft selection", Biological Cybernetics, Vol. 60. pp. 357-364. 1989. 


[G1r96] Girolami, M - Fyfe, C. "Higher Order Cumulant Maximisation Using Nonlinear Hebbian and Anti- 
Hebbian Learning for Adaptive Blind Separation of Source Signals", Proc. of the IEEE/IEE International 
Workshop on Signal and Image Processing, IWSIP-96, Advances in Computational Intelligence, Elsevier 
publishing, pp. 141 - 144, 1996. 


[Gol89a] Goldberg, D. E. "Genetic Algorithms ín Search, Optimization and Machine Learning", Addison- 
Wesley, 1989. 


[Gol89b] Golub H. - Van Loan, C. F. "Matrix Computations", Third Edition, Gene Johns Hopkins University 
Press, Baltimore and London, 1996. 


[Gol96] Golden, R. M. "Mathematical Methods for Neural Network Analysis and Design", MIT Press, 
Cambridge, MA. 1996. 


[Gon98] Gonzalez-Serrano, F. - Higueiras- Vidal, A. R. - Artés-Rodrigez, A. , Generalizing CMAC Architecture 
and Traning", IEEE Trans. on Neural Networks, Vol. 9. pp. 1509-1514, 1998. 


[G0095] Goonatilake, S. - Khebbal, S. (Editors) "Intelligent Hybrid Systems", John Wiley and Sons, London, 
1995. 


[Gra03] Granas, A. - Dugundji, J. "Fixed Point Theory" Springer- Verlag, New York, 2003. 
[Gre87] Grefenstette, J. "Genesis 4.5." GA software from gref(2aic.nrl.navy.mil 1987. 


[GupO03] Gupta, M. M - Jin, L. - Homma, N. "Static and Dynamic Neural Networks: From Fundamentals to 
Advanced Theory", Wiley-IEBE Press, 2003. 


401 
XMLmind XSL-FO Conrverter 


Irodalom 


[Guy96] Guyon, I. , A Scaling Law for the Validation-set Training-set Ratio", Technical Report, ATKkT Bell 
Laboratories. 1996. 


[Had1902] Hadamard, J. "Sur les problémes aux dérivées partielles et leur significatton physigue", Princeton 
University Bulletin, 49--52. 1902. 


[Ham90] Hambaba, M. L. "Nonlinear Principal Component Using Feedforward Neural Networks", Proc. of the 
Joint Conference on Neural Networks, 1990. pp. 3246-3248. 


[Han8$9] Han , J. Y. - Sayeh, M. R. - Zhang, J. "Convergence and Limit Points of Neural Network and Íts 
Application to Pattern Recognition", IEEE Trans. on Systems, Man, and Cybernetics, Vol. 19. No. 5. 1989. pp. 
1217 1222, 

[Hao04] Hao, X. — Zheng, P. — Xie. Zh. — Du, G. - Shen, F."A predictive modeling for blast furnace by 
integrating neural network with partial least sguares regression, Proc. of the IEEE International Conference on 


Industrial Technology CIT 04. Vol. 3. pp. 1162- 1167. 2004. 


[Har93] Harrer, H. - Galias, Z. - Nossek, J. A. "On the Convergence of Discrete Time Neural Networks", 
International Journal of Circuit Theory and Applications. Vol. 21. 1993. pp. 191 195. 


[Has92] Hassibi, B. - Stork, D. G. "Second Order Derivatives for Network Pruning: Optimal Brain Surgeon", in: 
Giles, C. L., Hanson, §. J., Cowan, J. D. (Editors) Advances in Neural Information Processing Systems, Vol. 5. 
San Mateo, CA. Morgan Kaufman, pp. 164-171. 1993. 

[Has95] Hassoun, M. H.: "Fundamentals of Artificial Neural Networks", MIT Press, Cambridge, MA. 1995. 


[Has97] Hashem §. "Optimal Linear Combinations of Neural Networks", Neural Networks, Vol. 10. No. 4. pp. 
599-614. 1997. 


[Has09] Hastie, T. - Tibshirani, R. - Friedman, J. " The Elements of Sttistical Learning. Data Mining, Inference, 
and Prediction", Springer, 2009. 


[Hay99] Haykin, S. "Neural Networks. A Comprehensive Foundation", Second Edition, Prentice Hall, 1999. 


[He93] He, X. - Asada, H. "A New Method for Identifying Orders of Input-Output Models for Nonlinear 
Dynamic Systems", Proc. of the American Control Conference, San Francisco, CA. USA. pp. 2520-2523. 1993. 


[Hea02] Heath, M. T. "Scientific Computing, An Introductory Survey", McGraw-HilI, New York. 2002. 
[Heb49] Hebb, D. O. "The Organization of Behaviour", John Wiley and Sons, New York, 1949. 


[Hec87] Hecht-Nielsen, R. , Kolmogorov"s Mapping Neural Network Existence Theorem" Proc. of the Int. 
Conference on Neural Networks, Vol. III. pp. 11-13. IEEE Press, N.Y. 1987. 


[Hec89] Hecht-Nielsen, R. "Neurocomputing", Addison-Wesley Publishing Co. 1989. 


[Her91] Hertz, J. - Krogh, A. - Palmer, R. G. "Introduction to the Theory of Neural Computation", Addison- 
Wesley Publishing Co. New York. 1991. 


[Hi1n89] Hinton, G. E. "Connectionist Learning Procedures", Artificial Intelligence, Vol. 41. pp. 185-234, 1989. 


[Hi1r91] Hirose, Y. - Yamashita, K. - Hijiya, S. "Back-Propagation Algorithm Which Varies the Number of 
Hidden Units", Neural Networks, Vol. 4. No. 1. pp. 61-66. 1991. 


[Ho0e70] Hoerl, A. E. - Kennard, R. W. "Ridge regression: Biased estimation for nonorthogonal problems. 
Technometrics, Vol. 12. No. 3. pp. 55-67, 1970. 


[Hol75] Holland, J. H. " Adaptation in Natural and Artificial Systems", Ann Arbor, MI: University of Michigan 
Press, 1975. 


[Ho177] Holland, P. W. - Welsch, R. E."Robust Regression Using Iteratively Reweighted Least-Sguares, " 
Communications in Statistics: Theory and Methods, A6, pp. 813-827. 1977. 


402 
XMLmind XSL-FO Converter 


Irodalom 


[Ho192] Holland, J. H. "Genetikai algoritmusok", Tudomány, 1992. szept. pp. 28-34. 


[Hop$2]Hopfield, J. J. "Neurons Networks and Physical Systems with Emergent Collective Computational 
Abilities", Proc. Natl. Acad. Science. Vol. 79. pp. 2554-2558. 1982. 


[Hor98] Horváth, G. (szerk), "Neurális hálózatok és műszaki alkalmazásaik" Egyetemi tankönyv, Műegyetemi 
Kiadó, Budapest. 1998. 


[Hor99] Horváth, G. - Pataki, B. - Strausz, Gy. "Black box modeling of a complex industrial process", Proc. of 
the 1999 IEEE Conference and Workshop on Engineering of Computer Based Systems, Nashville, TN, USA. pp. 
60-66. 1999. 


[Hor07] Horváth, G. - Szabó, T. , Kernel CMAC with Improved Capability", IEEE Trans. on Systems Man and 
Cybernetics, Part B. Vol. 37. pp. 124-138. 2007. 


[Hu03] Hu, S. - Liao, X. - Mao, X. " Stochastic Hopfield Neural Networks", Journal of Physics A: Mathematical 
and General. Vol. 35. 2003. pp. 2235-2249. 


[H4ua88] Huang, W. Y. - Lippmann, R. P. "Neural Nets and Traditional Classifiers", in: D. Z. Anderson (ed), 
Neural Information Processing Systems, (Denver, 1987) American Institute of Physics, pp. 387-396. New York, 
1988. 


[Hub81] Huber, P. J. "Robust Statistics", Wiley, 1981. 


[H4un99] Hung §. L. - Jan, J. C. "MS CMAC Neural Network Learning Model in Structural Engineering" 
Journal of Computing in Civil Engineering, pp. 1-11. 1999. 


[Hyv97] Hyvárinen A. - Oja, E."One-unit Learning Rules for Independent Component Analysis", Advances in 
Neural Information Processing Systems, Vol. 9. pp. 480-486. Cambridge, MA. The MIT Press, 1997. 


[HyvO0O0] Hyvárinen A. - Oja, E. "Independent Component Analysis: Algorithms and Applications. Neural 
Networks, Vol. 13. No.4-5. pp. 411-430. 2000. 


[HyvOl] Hyvárinen, A. - Karhunen, J. - Oja, E. "Independent Component Analysis. John Wiley gk Sons, New 
York, 2001. 


[HyvO06G] Hyvárinen A. — Shimizu, S. "A Ouasi-stochastic Gradient Algorithm for Variance-dependent 
Component Analysis", Proc. International Conference on Artificial Neural Networks (ICANN2006), Athens, 
Greece, pp. 211-220, 2006. 


[11992] Iguni, H. - Sakai, Y. "A Real-Time Learning Algorithm for a Multilayered Neural Network Based on 
the Extended Kalman Hilter", IEEE Trans. on Signal Processing, Vol. 40. No. 4. pp. 959-966. 1992. 


[Ish96] Ishikawa, M. "Structural Learning with Forgetting", Neural Networks, Vol. 9. No. 3. pp. 509-521. 1996. 


[Jac91] Jacobs, R.A. - Jordan, M. I. - Nowlan, §. J. - Hinton, G. E. "Adaptive Mixture of Local Experts", Neural 
Computation, Vol. 3. pp. 79-89. 1991. 


[JanO1] Jan J. C. - Hung, S. L. "High-Order MS CMAC Neural Network," IEEE Trans. on Neural Networks, 
vol. 12. pp. 598-603, May, 2001. 


[Jen93] Jenkins, R. E. - Yuhas, B. P. , A Simplified Neural Network Solution Throgh Problem Decomposition: 
The Case of the Truck Backer-Upper", IEEE. Trans. on Neural Networks, Vol. 4. No. 4. pp. 718-720. 1993. 


[Joh92] Johansson, E. M. - Dowla, F. U. - Goodman, D. M. "Backpropagation Learning for Multilayer Feed- 
Forward Neural Networks USsing the Conjugate Gradient Method", International Journal of Neural Systems, 
Vol. 2, No. 4. pp. 291-301. 1992. 


[Jor94] Jordan, M. I. - Jacobs, R.A. "Hierarchical Mixture of Experts and the EM Algorithm", Neural 
Computation, Vol. 6. pp. 181-214. 1994. 


[Jut88] Jutten, C. - Herault, J. "Independent component analysis versus PCA", Proceedings of EUSIPCO, pp. 
643 - 646, 1988. 


403 
XMLmind XSL-FO Converter 


Irodalom 


[Kar94] Karhunen, J. - Joutsensalo, J. "Representation and Separation of Signals using Nonlinear PCA Type 
Learning", Neural Networks, Vol. 7. No. 1. pp. 113-127. 1994. 


[Kar97] Karhunen, J. - Hyvárinen, A. - Vigario, R. - Hurri, J. - and OjJa, E. "Applications of Neural Blind Source 
Separation to Signal and Image Processing", Proc. of the IEEE 1997 International Conference on Acoustics, 
Speech, and Signal Processing (ICASSP 97), April 21 - 24. Munich, Germany, pp. 131-134. 1997. 


[Kar98] Karhunen, J. - Pajunen, P., - Oja, E. "The Nonlinear PCA Criterion in Blind Source Separation: 
Relations with Other Approaches", Neurocomputing, Vol. 22. No. 1. pp. 5-20. 1998. 


[Kea96] Kearns, M. , A Bound on the Error of Cross Validation using the Approximation and EstimationRates, 
with Conseguences for the Training-Testing Split", MIPS"95, D.S Touretzky, M. C. Mozer, M. E. Hasselmo 
(eds.) Advances in Neural Information Procesing Systems, MIT Press, MA. USA, 1996 


[Ker95] Ker, J. S. - Kuo, Y. H. - Liu, B. D. "Hardware Realization of Higher-order CMAC Model for Color 
Calibration", Proceedings, of the IEEE International Conference on Neural Networks, Perth, Vol. 4. pp. 1656- 
1661. 1995. 


[Kim90] Kim, S. P. - Bose, N. K. "Reconstruction of 2-D Bandlimited Discrete Signals from Nonuniform 
Samples", IEE Proceedings, Part F. Vol. 137. No. 3. pp. 197-204. 1990. 


[Kne92] Knerr, S. - Personnaz, L. - Dreyfus, G. "Handwritten Digit Recognition by Neural Networks with 
Single-Layer Training", IEEE Trans. on Neural Networks, Vol. 3. 1992. pp. 962-969. 


[Knu88] Knuth, D. E. "A számítógép programozás művészete 3. Keresés és rendezés", Műszaki Könyvkiadó, 
Budapest, 1988. 


[Koh82] Kohonen, T. "Self-organized Hormation of Topologically Correct Feature Maps", Biological 
Cybernetics, Vol. 434.. pp. 59-69. 1982 


[Koh$6] Kohonen, T. "Learning Vector Ouantization for Pattern Recognition", Technical Report TKK-F-A601. 
Helsinki University of Technology. 1986. 


[Koh88] Kohonen, T. "The Neural Phonetic Typewriter", Computer. Vol. 21. 1988. pp. 11-22. 
[Koh89] Kohonen, T. , Self-Organization and Associative Memory", Third edtion, Springer, New York, 1989. 


[Koh90] Kohonen, T. "Improved Versions of Learning Vector Ouantization", International Joint Conference on 
Neural Networks. Vol. 1. pp. 545-550. 1990. 


[Koh00] Kohonen, T. - Kaski, S. - Lagus, K. - Salojárvi, J. - Honkela, J. - Paatero, V. - Saarela, A. , Self 
Organization of a Massive Document Collection". IEEE Transactions on Neural Networks, Special Issue on 
Neural Networks for Data Mining and Knowledge Discovery, Vol. 11, No. 3. pp. 574-585. 2000. 


[Kol57] Kolmogorov, A. N. "On the Representation of Continuous Functions of Many Variables by 
Superposition of Continuous Functions of One Variable and addition", (Oroszul) Dokl. Akad. Nauk. USSR. Vol. 
114. 1957. pp. 953-956. 


[Kro95] Krogh, A. - Vedelsby, J. "Neural Network Ensembles, Cross Validation, and Active Learning", G. 
Tesauro, D. S. Touretzky and T. K. Leen (eds.): Advances in Neural Information Processing Systems 7. pp. 231- 
238. MIT Press, Cambridge, MA: 1995. 


[Kun90] Kung, S. Y. - Diamantaras, C.I. "A Neural Network Learning Algorithm for Adaptive Principal 
Component Extraction (APEX)", Proc. of the International Conference on Acoustics, Speech and Signal 
Processing, Vol. 2. pp. 861-864. 1990. 


[Kúr92] Kúrková, V. , Kolmogorov Theorem and Multilayer Neural Networks", Neural Networks, Vol. 5. pp. 
501-506. 1992. 


[Kúr97] Kúrková, V. - Kainen, P. C. - Kreinovich, V. "Estimates of the Number of Hidden Units and Variations 
with Respect to Half-Spaces", Neural Networks, Vol. 10. No. 6. pp. 1061-1068. 1997. 


404 
XMLmind XSL-FO Converter 


Irodalom 


[Kwoo3] Kwok, J. T. - Tsang, I. W. "Linear Dependency Between e and The Input Noise in e-Support Vector 
Regression" IEEE Trans. on Neural Networks, Vol. 14. No.3. pp. 544-553. 2003. 


[Lag02] Lagus, K. , Text retrieval using self-organized document maps", Neural Processing Letters. Vol. 15, 
No. 1. pp. 21-29. 2002. 


[Lag04] Lagus, K. - Kaski, S. - Kohonen, T. , Mining massive document collections by the WEBSOM method" 
Information Sciences, Vol 163. No. 1-3. pp. 135-156. 2004. 


[Lan8$4] Landau, I. D. "A Feedback System Approach to Adaptive Filtering", IEEE Trans. on Information 
Theory, Vol. IT 30. No 2. pp. 251 267. 1984. 


[Lan88] Lang K. J. —Hinton, G. E. "The development of the time-delay neural network architecture for speech 
recognition" Technical Report, CMU-CS-88-152, Carnegi1e-Mellon University, Pittsburg, PA. 


[Lan92] Lane, S. H. - Handelman, D. A. - Gelfand, J. J "Theory and Development of Higher-Order CMAC 
Neural Networks", IEEE Control Systems Magazine, Vol. 12. No. 2. pp. 23-30. 1992. 


[Lau06] Lauer, F. - Bloch, G. "Incorporating Prior Knowledge in Support Vector Machines for Classification: a 
Review", HAL-CCSd-CNRS, 2006. 
http://hal.ccsd.cnrs.fr/docs/00/06/35/21/PDF/LauerBlochNeurocomp0o6. pdf" . 


[Le06] Le, O. V. - Smola, A. J. - Gártner, T " Simpler Knowledge-based Support Vector Machines", Proc. of 
the 23" International Conference on Machine Learning, Pittsburg, PA. pp. 521-528. 2006. 


[LeC89] LeCun, Y. - Boser, B. - Denker, J. S. "Backpropagation Applied to Handwritten Zip Code 
Recognition", Neural Computation, Vol. 1. pp. 541-551. 1989. 


[LeC90] Le Cun, Y. - Denker, J. S. - Solla, S. "Optimal Brain Damage", ín: Touretzky, D. (Ed.) Advances in 
Neural Information Processing Systems, Vol. 2. San Mateo, CA. Morgan Kaufman, pp. 598-605. 1990. 


[Lee0la] Lee, Y-J. - Mangasartian, O. L."SSVM: A Smooth Support Vector Machine", Computational 
Optimization and Applications, Vol. 20. No. 1. pp. 5-22. 2001. 


[Lee01lb] Lee, Y-J. - Mangasarian, O. L., "RSVM: Reduced Support Vector Machines", Proc. of the First STIAM 
International Conference on Data Mining , Chicago, 2001. 


[Lee03] Lee, H. M. Chen C. M. - Lu, Y. F. "A Self-Organizing HCMAC Neural-Network Classifier," IEEE 
Trans. on Neural Networks, vol. 14. pp. 15-27. Jan. 2003. 


[Le191] Leighton, R. - Conrath, B. "The Autoregressive Backpropagation Algorithm", Proc. of the 1991 
International Joint Conference on Neural Networks, IJCNN 91. Vol. 2. pp. 369-377. 1991. 


[Les93] Leshno, M. - Lin, V. Y. - Pinkus, A. - Schocken, S. "Multilayer Feedforward Networks With a 
Nonpolynomial Activation Function Can Approximate Any Function", Neural Networks, Vol. 6. pp. 861-867. 
1993. 


[LeuO01l] Leung, C. S. - Tsoi, A. C., Two-regularizers for Recursive Least Sguared Algorithms ín Feedforward 
Multilayerd Neural Networks", IEEE Trans. on Neural Networks, vol. 12, pp. 1314-1332. 2001. 


[Lew96] Lewis, F. Yesildirek, A. Liu, K. "Multilayer neural-net robot controller with guaranteed tracking 
performance". IEEE Trans. on Neural Networks, Vol. 7. No. 2. pp. 388-399. 1996. 


[L104] Li C. K. - Chiang, C. T. "Neural Networks Composed of Single-variable CMACSs," Proc. of the 2004 
IEEE International Conference on Systems, Man and Cybernetics, The Hague, The Netherlands, pp. 3482-3487, 
2004. 


[L105] Li, H., Shi, K., McLaren, P., , Neural-Network-Based Sensorless Maximum Wind Energy Capture with 
Compensated Power Coefficient", IEEE Trans. on Industry Applications, Vol. 41, No. 6. pp. 1548-1556. 2005. 


[Lin96] Lin C. S. - Li, C. K. "A Low-Dimensional-CMAC-Based Neural Network", Proceedings of IEEE 
International Conference on Systems, Man and Cybernetics Vol. 2. pp. 1297-1302. 1996. 


405 
XMLmind XSL-FO Conrverter 


Irodalom 


[Lin98] Lindsey, C. S. - Lindblad, T. "Review of Hardware Neural Networks: A Userjs Perspective", 
http://ms1a02.msi.se/-lindsey/ Oct. 1998. 


[L1p92] Lipschitz, S. P. - Wannamaker, R. A. "Ouantization and Dither a Theoretical Survey", Journal of the 
Audio Engineering Society, Vol. 40. No. 5. pp. 355-375. 1992. 


[L1u99] Ljung, L.: "System Identification, Theory for the User", Second edition, Prentice Hall, Upper Saddle 
River, N. J. 1999. 


[Lor76] Lorentz, G. G. "The 13-th Problem of Hilbert", Proc. of Symposia in Pure Mathemathics, Vol. 28. pp. 
419-430. 1976. 


[Lu99] Lu, B. L. Íto, M. , Task decomposition and Module Combination Based on Class Relations: A Modular 
Neural Network for Pattern Classification" IEEE. Trans. on Neural Networks, Vol. 10. No. 5. pp. 1244-1256. 
1999. 


[Mac95] Maclin, R. F., "Learning from Instruction and Experience: Incorporating Procedural Domain Theorles 
into Knowledge-Based Neural Networks", Ph.D Thesis, University of Wisconsin, Madison, USA, 1995. 


[Ma199] Maiorov, V. - Pinkus, A. "Lower Bounds for Approximation by MLP Neural Networks", 
Neurocomputing, Vol. 25, pp. 81-91.1999. 


[Mal96] Malthouse, E. C. "Some Theoretical Results on Nonlinear Principal Components Analysis", ftp from 
http://skew2.kellogg.nwu.edu/-ecm, 24 p. 1996. 


[Man04] Mangasarian, O. L. - Shavlik, J. - Wild, E. W. "Knowledge-Based Kernel Approximation", Journal of 
Machine Learning Research, Vol. 5. pp. 1127-1141. 2004. 


[Mát6ó5] Mátyás, J. "Random Optimization", Automation and Remote Control, Vol. 26. pp. 246-253. 1965. 


[McC43] McCulloch, W. S. - Pitts W. "A Logical Calculus of Ideas Immanent in Nervous Activity", Bulletin of 
Mathematical Biophysics, pp. 115-133. 1943. 


[Mer06] Merler,S. - Jurman, G. " Terminated Ramp-Support Vector Machines: A nonparametric data dependent 
kernel", Neural Networks, Vol. 19. No. 10. pp. 1597-1611. 2006. 


[Mha94] Mhaskar, H. N. , Approximation of Real Functions using Neural Networks", in: H. P. Dikshit, C. A. 
Micchelli (eds.) Advances in Computational Mathematics, New Delhi, India. World Scientific, Singapore, pp. 
267-278. 1994. 


[MiIk99] Mika, S. - Schölkopf, B. - Smola, A. - Müller, K-R. - Schultz, M. - Rátsch, G. "Kernel PCA and De- 
Noising ín Feature Spaces", in: M. S. Kearns, S. A. Solla, D. A. Kohn (eds.) Advances in Neural Information 
Processing Systems, Vol. 11. pp. 536-542. Cambridge, MA. The MIT Press, 1999. 


[M1i191] Miller, W. T. - Box, B. A. - Whitney E. C. "Design and Implementation of a High Speed CMAC Neural 
Network USsing Programmable CMOS Logic Cell Arrays", Advances in Neural Information Processing Systems 
3. pp. 1022-1027. 1991. 

[Min69] Minsky, M. - Papert, S. "Perceptrons", MIT Press, Cambridge MA. 1969. 

[M1t97] Mitchell, T. "Machine Learning", McGraw-H1ill, 1997. 


[Mon89] Montana, D. L. - Davis, L "Training Feedforward Neural Networks Using Genetic Algorithms", Proc. 
of the Eleventh IJCAI, 1989. pp. 762-767. 1989. 


[M0088] Moody, J - Darken, C. "Learning with Localized Receptive Fields", Proceedings of the 1988 
Connectionist Models Summer School, Pittsburg, D Touretzky, G. Hinton, T. Sejnowsky (eds.) pp. 174-185. 
San Mateo, Morgan Kaufmann, 1988. 


[Mo0089] Moody, J. "Fast Learning in Multi-Resolution Hierarchies", Advances in Neural Information 
Processing, 1. Toureczky (Ed.) Los Altos, CA. Morgan Kaufmann, pp. 474-481. 1989. 


406 
XMLmind XSL-FO Converter 


Irodalom 


[Mor77] Moré, J. J. "The Levenberg-Marguardt Algorithm, Implementation and Theory" G. A Watson (ed.) 
Numerical Analysis, Lecture Notes in Mathematics, Vol. 630. pp. 105-116, Springer, 1977. 


[Muk97] Mukherjee, S. - Osuna, E. - Girosi, F. "Nonlinear Prediction of Chaotic Time Sertles using a Support 
Vector Machine", IEEE Workshop on Neural Networks for Signal Processing, NNSP 97, pp. 511-520. 1997. 


[Mur94] N. Murata, S. Yoshizawa and Shun-Ichi Amari, Network Information Criterion - Determining the 
Number of Hidden Units for an Artificial Neural Network Model, IEEE Trans. on Neural Networks, Vol. 5. No. 
6. pp. 865-871. 1994. 


[Mül97] Müller, K. R. - Smola, A. - Schölkopf, B. - Rátsch, G. - Kohlmorgen, J. - Vapnik, V. "Predicting Time 
Serles with Support Vector Machines", Proc. of the Articial Neural Networks, ICANN 97, pp. 999-1004. 
Springer, 1997. 


[INak97] Nakanishi, K. - Tkayama, H. "Mean-field theory for a spin-glass model of neural networks: TAP free 
energy and the paramagnetic to spin-glass transition ", Journal of Physics A: Mathematical and General. Vol. 
30. 1997. 8085-8094 


[Nar83] Narayan, §. S. - Peterson, A.M. - Narashima, M. J. , Transform domain LMS algorithm" IEEE Trans. 
on Audio Speech and Signal Processing, Vol. 31, pp. 631-639. 1983. 


[INar$9b] Narendra, K. S. - Thathachar, M). A. L "Learning Automata: An Introduction", Prentice Hall, 
Englewood Cliffs, N. J. 1989. 


[Nar90] Narendra, K. S. - Pathasarathy, K. " [dentification and Control of Dynamical Systems Using Neural 
Networks," IEEE Trans. Neural Networks, Vol. 1. pp. 4 27. 1990. 


[Nar91] Narendra, K. S. - Pathasarathy, K. "Identification and Control of Dynamic Systems Using Neural 
Networks" , IEEE Trans. on Neural Networks, Vol. 2. pp. 252-262. 1991. 


[Nar05] Narendra, K. S. - Annaswamy, A. M. "Stable Adaptive Systems", Dover Publications, 2005. 


[Ner93] Nerrand, O. - Roussel-Ragot, P. - Personnaz, L. - Dreyfus, G. " Neural Networks and Nonlinear 
Adaptive Filtering: Unifying Concepts and New Algorithms", Neural Computation, Vol. 5. pp. 165-199. 1993. 


[Ngu89] Nguyen, D. - Widrow, B. "The Truck Backer-Upper: An Example of Self-Learning" Proc. of the 
Neural Networks IEEE International Joint Conference on Neural Networks, IJCNN 89, Vol. II, p. I[-357-I[-364, 
IEEE, 1989. 


[Ngu90] Nguyen, D. - Widrow, B. , Improving the Learning Speed of 2-Layer Neural Networks by Choosing 
Initial Values of the Adaptive Weights", Proc. of the Intnl. Joint Conference on Neural Networks, Vol. III. pp. 
21-26. 1990. 


[N1165] Nilsson, N. J. "Learning Machines", McGraw-Hill, New York, 1965. 


[N1y98] Niyogi, P. - Girosi, F. - Poggio, T. "Incorporating Prior Information in Machine Learning by Creating 
Virtual Examples" Proc. of the IEEE. Vol. 86. No. 11. pp. 2196-2209. 1998. 


[INer00] Norgaard, M. Ravn, O. - Poulsen N. K. - Hansen, L. K. "Neural Networks for Modelling and Control of 
Dynamic Systems", Springer- Verlag, London, 2000. 


[0]Ja82] Oja, E. "A Simplified Neuron Model as a Principal Component Analyzer", Journal of Mathematical 
Biology, Vol. 15. pp. 267-273. 1982. 


[O0]ja83] Oja, E. "Subspace Methods for Pattern Recognition", Research Studies Press, Letchworth, 
Hertfordshire, England, 1983. 


[O0p195] Opitz, D. W. "An Anytime Approach to Connectionist Theory Refinement: Refining the Topolgies of 
Knowledge-Based Neural Networks", Ph.D Thesis, University of Wisconsin, Madison, USA, 1995. 


[05499] Osuna, E. - Girosi, F. "Reducing run-time complexity in SVMS", ín: B. Schölkopf, C. Burges, A. J. 
Smola (eds.) Advances in Kernel Methods — Support Vector Learning. MIT Press, Cambridge, MA. pp. 271- 
284. MIT Press. 1999. 


407 
XMLmind XSL-FO Conrverter 


Irodalom 


[Par91] Park, J. - Sandberg, I. W. , Universal Approximation using Radial Basis Function Networks" Neural 
Computation, Vol. 3. pp. 246-257, 1991. 


[Par92] Parks, P. C. - Militzer, J. "A Comparison of Five Algorithms for the Training of CMAC Memortes for 
Learning Control Systems", Automatica, Vol. 28. No. 5. pp. 1027-1035. 1992. 


[Par93] Park, J. - Sandberg, I. W. " Approximation and Radial-Basis-Function Networks", Neural Computation, 
Vol 5. No. 2. pp. 305-316. 1993. 


[Pat98] Pataki, B. - Horváth, G. - Strausz, Gy. "Effects of Database Characteristics on the Neural Modeling of 
an Industrial Process", Proc. of the International ISCS/IFAC Symposium on Neural Computation (NC 9898). 
Vienna. pp. 834-840. 1998. 


[Pat00] Pataki, B., Horváth, G., Strausz, Gy., Talata, Zs. "Inverse Neural Modeling of a Linz- Donawitz Steel 
Converter" e £ i Elektrotechnik und Informationstechnik, Vol. 117. No. 1. pp. 13-17. 2000. 


[PavOS] Pavlovic, V. - Schonfeld, D. — Friedman G. "Stochastic Noise Process Enhancement of Hopfield Neural 
Networks", IEEE Trans. on Circuits and Systems, Vol. 52. No. 4., pp. 213-217, 2005. 


[Pel04] Pelckmans, K. - Espinoza, M. - De Brabanter, J. - Suykens, J. A. K. - De Moor, B. "Primal-Dual 
Monoton Kernel Regressi10n" Neural Processing Letters, Vol. 4. No. 6. pp. 17-31. 2004. 


[Pen55] Penrose, R. "A Generalized Inverse for Matrices" Proc. of the Cambridge Philosophical Society, Vol. 
51. pp. 406-413. 1955. 


[Pet72] Peterson, W. W. — Weldon, E. J. "Error-correcting Codes", second edition, MIT Press, Cambridge, MA. 
1972. 


[Pie99] Pietruschka, U., Brause, R., , Using Growing RBF-Nets in Rubber Industry Process Control", Neural 
Computing £ Applications, No. 8, 1999, pp. 95-105. 


[Pin01l] Pintelon, R. - Schoukens, J. "System Identification, The Freguency Domain Approach", MIT Press. 
2001. 


[Pla$6] Plaut, D. C. - Nowlan, S. J. - Hinton, G. E. "Experiments on Learning with Back-propagation , 
Technical Report, CMU-CS-86-126. Carnegie-Mellon University, 1986. 


[Pla99] Platt, J. C. "Fast Training of Support Vector Machines using Seguential Minimal Optimization", in: B. 
Schölkopf, C. Burges, A. J. Smola (eds.) Advances in Kernel Methods — Support Vector Learning. MIT Press, 
Cambridge, MA. pp. 185-208. 1999. 


[Plu93] Plumbley, M. "A Hebbian /anti-Hebbian network which Optimizes Information Capacity by 
Orthonormalizing the Principal Subspace" Proc. IEE Conference on Artificial Neural Networks, Brighton, UK. 
pp. 86-90. 1993 


[Pog90] Poggio, T. - Girosi, F. , Networks for approximation and Learning", Proc. of the IEEE, Vol. 78. pp. 
1481-1497. 1990. 


[Pom91] Pomerleau, D. A. "Efficient Training of Artificial Neural Networks for Autonomous Navigation", 
Neural Computations, Vol. 3. No. 1. pp. 88-97. 1991. 


[Pra96] Prabhu, §. M. - Garg, D. P."Artificial Neural Network Based Robot Control: An Overview" Journal of 
Intelligent and Robotic Systems, Vol. 15, No. 4, pp. 333-365. 1996. 


[Pre02] Press, W. H. - Teukolsky, S. A. - Wetterling W. T. - Flannery, B. P. "Numerical Recipes in C", 
Cambridge University Press, Books On-Line, http://www.nr.com, 2002. 


[Rad93] Radcliffe, N. "Genetic Set Recombination and its Application to Neural Network Topology 
Optimisation", Neural computing and application, Vol. 1. No. 1. pp. 67-90. 1993. 


[Ral04] Ralaivola, L. - d"Alché-Buc, F."Dynamical Modeling with Kernels for Nonlinear Time Sertes 
Prediction" Advances in Neural Information Processing Systems, S. Thrun, L. Saul, B. Schölkopf (Eds.) MIT 
press, MA, 2004. 


408 
XMLmind XSL-FO Converter 


Irodalom 


[R1s578] Rissanen, J. "Modelling by Shortest Data Description", Automatica, Vol. 14. pp. 465-471, 1978. 


[Riv94] Rivals, L. - Cannas, D. - Personnaz, L. - Dreyfus, G. "Modelling and Control of Mobile Robots and 
Intelligent Vehicles by Neural Networks", Proc. of the IEEE Conference on Intelligent Vehicles, pp. 137-142. 
1994. 


[Rob91l] Robinson, T. - Fallside, F. "A recurrent error propagation network speech recognition system, " 
Computer Speech £ Language, Vol. 5. No. 3. pp. 259-274. 1991. 


[Ros58] Rosenblatt, F. "The Perceptron: A Probabilistic Model for Information Storage and Organization of the 
Brain", Psycol. Rev., Vol. 65. pp. 386-408. 1958. 


[IRóz91] Rózsa P. , Lineáris algebra és alkalmazásai", 3. átdolgozott kiadás, Tankönyvkiadó, Budapest, 1991. 


[Rum$6] Rumelhart, D. E. - Hinton, G. E. - Williams, R. J. "Learning Internal Representations by Error 
Propagation", in Rumelhart, D. E. - McClelland, J. L. (Eds.) Parallel Distributed Processing: Explorations in the 
Microstructure of Cognition, 1. MIT Press. pp. 318-362. 1986. 


[Rus05] Russel, S. - Norvig, P. "Mesterséges intelligencia modern megközelítésben", magyar fordítás Panem, 
2005 


[San89] Sanger, T. "Optimal Unsupervised Learning in a Single-layer Linear Feedforward Neural Network" , 
Neural Networks, Vol. 2. No. 6. pp. 459-473. 1989. 


[S5an93] Sanger, T. "Relation Between the APEX Algorithm and GHA", Manuscript on ftp 1993. 


[Sca92] Scalero, R. S. - Tepedelenlioglu, N. "A Fast New Algorithm for Training Feedforward Neural 
Networks", IEEE Trans. on Signal Processing, Vol. 40. No. 1. pp. 202-210. 1992. 


[Sca98] Scarselli, F. - Tsoi, A. H. "Universal Approximation Using Feedforward Neural Networks: A Survey of 
Some Existing Methods and Some New Results", Neural Networks, Vol. 11. No. 1. pp.15-37. 1998. 


[Sch96a] Schölkopf, B. - Sung, K. - Burges, C. - Girosi, F- Niyogi, P. - Poggio, T. - Vapnik, V. "Comparing 
Support Vector Machines with Gaussian Kernels to Radial Basis Function Classifiers", AIM-1599. MIT. 1996. 
ftp://publicattions.a1.mit.edu/a1-publications/pdf/AIM-1599.pdf 


[Sch96b] Schölkopf, B. - Burges, C. - Vapnik, V. " Incorporating Invariances in Support Vector Learning 
Machines" in: C. von der Malsburg, W. von Seelen, J. C. Vorbrüggen, B. Sendhoff (eds): Artificial Neural 
Networks- ICANN 96, Springer Lector Notes in Computer Sciences. Vol. 1112, Berlin pp. 47-52. 1996. 


[Sch96c] Schölkopf, B. - Smola, A. - Müller, K.-R. "Nonlinear Component Analysis as a Kernel Eigenvalue 
Problem", Technical Report No. 44. Max-Planck-Institue für biologische Kibernetik. 1996. 


[Sch97] Schölkopf, B. "Support Vector Learning", R. Oldenburg Verlag, Munich, 1997. 


[Sch99] Schölkopf, B. - Burges, C. - Smola, A. "Advances in Kernel Methods Support Vector Learning", MIT 
Press, MA. USA. 1999. 


[Sch02] Schölkopf, B. - Smola, A. "Learning with Kernels Support Vector Machines, Regularization, 
Optimization and Beyond", MIT Press, MA. USA. 2002. 


[Scha90] Schaprre, R. E. , The Strength of Weak Learnability", Machine Learning, Vol. 5. pp. 197-227. 1990. 


[Scha99] Schapire, R. E., , A Brief Introduction to Boosting7, Proc. of the Sixteenth International Joint 
Conference on Artificial Intelligence, (IJCAI-99) Vol. 2. pp. 1401-1406, 1999. 


[Scha02] Schapire, R. E., "The Boosting Approach to Machine Learning: An Overview?", MSRI Workshop on 
Nonlinear Estimation and Classification, Berkeley, CA, 2002. 


[Sej87] Sejnowski, T. J. - Rosenberg, C. R. "Parallel Networks that Learn to Pronounce English Text", Complex 
Systems, Vol. 1. pp. 145-168. 1987. 


409 
XMLmind XSL-FO Conrverter 


Irodalom 


[ISer96] Serbedzija, N. B. "Simulating Artifical Neural Networks on Parallel Architectures", Computer IEEE, 
March, pp. 56-63. 1996. 


[Sha92] Shah, S. - Palmtieri, F. - Datum, M. "Optimal Filtering Algoritms for Fast Learning in Feedforward 
Neural Networks", Neural Networks, Vol. 5. pp. 779-787. 1992. 


[Sha02] Shawe-Taylor, J. - Cristianini, N. "On the Generalization of Soft Margin Algorithms", IEEE Trans. on 
Information Theory, Vol. 48. pp. 2721-2735. 2002. 


[S1m00] Simoes, M., Furukawa, C., Mafra, A., Adamowski, J. C., , A Novel Compitetive Learning Neural 
Network Based Acoustic Transmission System for O1l-Well Monitoring", IEEE Transactions on Industry 
Applications, Vol. 36, No. 2, pp. 484-491. 2000. 


[51095] Sjöberg, J. - Zhang, O. - Ljung, L. - Benveniste, A. - Deylon, B. - Glorennec, P.-Y. - Hjalmarsson, H. - 
Juditsky, A. "Nonlinear black-Box Modeling in System Identification: a Unified Overview" Technical Report, 
Linköping University, No: LITH-ISY-R-1742, 1995. 


[Sma06] Van Der Smagt, P. — Omidvar, O. M. (eds), "Neural Systems for Robotics" Academis Press, 2006. 


(Sol81] Solis, F. J, -Wets, J. B. "Minimization by Random Search Technigues", Mathematics of Operation 
Research, Vol. 6. pp. 19-30. 1981. 


[50196] Sollich, P. - Krogh, A. "Learning with ensembles: How overfitting can be useful", Advances in Neural 
Information Processing Systems, Vol. 8, pp. 190-196, The MIT Press, 1996. 


(ISpró5] Sprecher, D. A. , Ont he Structure of Continuous Functions of Several Variables", Transactions 
American Mathemathical Society, Vol. 115, pp. 340-355. 1965. 


[Spe93] Sperduti, A. - Starita, A. "Speed Up Learning and Network Optimization With Extended Back 
Propagation", Neural Networks, Vol. 6. pp. 365 383. 1993. 


[Str98] Strausz, Gy. - Horváth, G. - Pataki, B., Experlences from the results of neural modelling of an industrial 
process" Proc. of Engineering Application of Neural Networks, EANN 98, Gibraltar pp. 213-220. 1998. 


[St078] Stone, M. "Cross- Validation: A Review", Mathematische Operationsforschung Statistischen, Vol. 9. pp. 
127-140. 1978. 


[5403] Su, S. F. - Tao T. - Hung, T. H. "Credit assigned CMAC and Its Application to Online Learning Robot 
Controllers, " IEEE Trans. on Systems Man and Cybernetics- Part B. Vol. 33, pp. 202-213. 2003. 


[S5um99] Sum, J. - Leung, C. - Young, G. - Kay, W. , On the Kalman-filtering Method in Neural Network 
Training and Pruning" IEEE Trans. on Neural Networks, Vol. 10, pp. 161-166. 1999. 


[Sun00] Sun, Y. "Hopfield Neural Network Based Algorithms for Image Restoration and Reconstruction", IEEE 
Trans. on Signal Processing, Vol. 48, No. 7, July 2000. pp. 2105 2131. 


[Sun05] Sun, 0. - DeJong, G. "Explanation-Augmented SVM: an Approach to Incorporating Knowledge into 
SVM Learning", Proc. of the 22" International Conference on Machine Learning, Bonn, Germany. pp. 864- 
871. 2005. 


[Sut98] Sutton, R. S., - Barto, A. G. "Reinforcement Learning: An Introduction", Bradford Book, MIT Press, 
Cambridge, 1998. 


[5uy99] Suykens, J. - deMoor, B. — Vandewalle, G. E. "The development of the time-delay neural network 
architecture for speech recognition? Technical Report, CMU-CS-88-152, Carnegie-Mellon University, 
Pittsburg, PA. 1999. 


[Suy00] Suykens, J. A. K. - Lukas, L. - Vandewalle, J. "Sparse least sguares support vector machine classifiers", 
ESANN 2000 European Symposium on Artificial Neural Networks, pp. 37—42. 2000, 


[SuyO2a] Suykens, J. A. K. - Gestel, V. T. - De Brabanter, J. - De Moor, B. - Vandewalle, J. "Least Sguares 
Support Vector Machines", World Scientific, 2002. 


410 
XMLmind XSL-FO Conrverter 


Irodalom 


[SuyO2b] Suykens, J. A. K. De Brabanter, J. - Lukas, L. - Vandewalle, J. "Weighted least sguares support vector 
machines: robustness and sparse approximation", Neurocomputing, Vol. 48. No. 1-4. pp. 85-105. 2002. 


[Szők68] Szőókefalvi-Nagy Béla: "Valós függvények és függvénysorok", Tankönyvkiadó, Budapest, 1968. 


[Tak93] Takahashi, Y.,, Generalization and Approximation Capabilities of Multilayer Networks, Neural 
Computation, Vol. 5. pp. 132-139. 1993. 


[Tak03] Takács G. "Irányítószám-felismerő rendszer", TDK dolgozat, BME VIK. 2003. 


[T1k77] Tikhonov, A. N. - Arsenin, V. Y. " Solutions of III-posed Problems", Washington, DC: W. H. Winston, 
1997. 


[Tow91] Towell, G. G. "Symbolic Knowledge and Neural Networks: Insertion, Refinement and Extraction", 
Ph.D Thesis, University of Wisconsin, Madison, USA, 1991. 


[Val84] Valiant, L. G. , A theory of the learnable? Communications of the ACM, Vol. 27. pp. 1134-1142, 1984. 
[Val03] Valyon, J. - Horváth, G. , A generalized LS-SVM", SYSID 2003, Rotterdam, pp. 827-832. 2003, 


[Val04] Valyon, J. - Horváth, G., , A Sparse Least Sguares Support Vector Machine Classifier", Proc. of the 
International Joint Conference on Neural Networks, IJCNN 2004, pp. 543-548. 2004. 


[Van92] Van Ooyen, A. "Improving the Convergence of the Back Propagation Algorithm", Neural Networks, 
Vol. 5. pp. 465 471. 1992. 


[Van00] Van Gorp, - J. Schoukens, J. - Pintelon, R. , Learning Neural Networks with Noisy Ínputs Using the 
Errors-in- Vartiables Approach", IEEE Trans. on Neural Networks, Vol. 11. No. 2. pp. 402-414. 2000. 


[Vap79] Vapnik, W. N. - Tschervonenkis, A. Ja. "Teorie der Zeichenerkennung", Akademia, Berlin, 1979. 


[Vap91 Vapnik, V. Chervonenkis, A. Ya. , The Necessarry and Sufficient Conditions for Consistency of the 
Method of Emprrical Risk Minimization", Pattern Recognition and Image Analysis, Vol. 1. pp. 284-305, 1991. 


[ Vap95] Vapnik, V. N. "The Nature of Statistical Learning Theory", Springer, New York, 1995. 
[Vap98] Vapnik, V. N. "Statistical Learning Theory", Wiley-Intrescience, 1998. 


[Vap99] Vapnik, V. N. "An overview of statistical learning theory" IEEE Trans. on Neural Networks, Vol. 10. 
No. 5. pp. 988-1000. 1999. 


[Vee95] Veelenturf, L. P. J. "Analysis and Application of Artificial Neural Networks", Prentice Hall, London, 
1995. 


[Vi1d93] Vidyasagar, M. "Convergence of Higher-Order Neural Networks With Modified Updating", Proc. of 
the Intntl. Conference on Neural Networks, Vol.3. pp. 1379-1384. 1993. 


[Vin00] Vincent, P. - Bengio, J. "A Neural support Vector Network Architecture with Adaptive Kernels", Proc. 
of the Intnl. Joint Conference on Neural Networks, IJCNN 2000. pp. 187-192. 2000. 


[Vog88] Vogl, T. P. - Manglis, J. K. - Rigler, A. K. - Zink, W. T. - Alkon, D. L. " Accelerating the Convergence 
of the Back-propagation Method", Biological Cybernetics, Vol. 59. pp. 257-263. 1988. 


[Wa1i89] Waibel, A. "Modular construction of time-delay neural networks for speech recognition", Neural 
Computation, Vol. 1. No. 1. pp. 39-46. 1989. 


[Wal91] Wallace, G. K. "The JPEG Still Picture Compression Standard", Communication of the ACM, Vol. 34, 
No. 4, pp. 30-44. 1991. 


[(Wan90] Wan, E. A. "Temporal Backpropagation for FIR Neural Networks", Proc. of the Intnl. Joint 
Conference on Neural Networks, IJCNN 1990, Vol. I. pp. 575-580. 1990. 


411 
XMLmind XSL-FO Conrverter 


Irodalom 


[(Wan93] Wang, Y. "Analog CMOS Implementation of Backward Error Propagation", Proc. of the Intnl. Joint 
Conference on Neural Networks, IJCNN 1993, pp. 701-706. 1993. 


[(Wan94] Wan, E. A. "Time Series Prediction by Using a Connectionist Network with Internal Delay Lines", 
Time Series Prediction: Forecasting the Future and Understanding the Past, (Eds: Eigend, A.§S. - Gershenfeld, 
N.A) pp. 195-217. Addison Wesley, 1994. 


[(Wan96a] Wang, Z. O. - Schiano J. L. - Ginsberg, M. "Hash Coding in CMAC Neural Networks," Proc. of the 
IEEE International Conference on Neural Networks, Washington, USA. vol. 3. pp. 1698-1703, 1996. 


[Wan96b] Wang, L-Y. - Karhunen, J. "A Unified Neural Bigradient Algorithm for Robust PCA and MCA", 
International Journal of Neural Systems, Vol. 7. No. 1. pp. 53-67. 1996. 


[(We194] Weigend, A. S. - Gershenfeld, N. A. "Forecasting the Future and Understanding the Past" Vol.15. 
Santa Fe Institute Studies in the Science of Complexity, Reading, MA. Addison-Wesley, 1994. 


[(Wer74] Werbos, P. J. "Beyond Regression: New Tools for Prediction and Analysis in the Behaviour Sciences", 
Ph. D Thesis, Harvard University, Cambridge, MA. 1974. 


[(Wer93] Werntges, H. W. "Partitions of Unity Improve Neural Function Approximations", Proc. of the IEEE 
International Conference on Neural Networks, San Francisco, USA. Vol. II. pp. 914-918, 1993. 


[(Wer00] Wermter, S. - Sun, R. (eds.), "Hybrid Neural Systems", Lecture Notes in Artificial Intelligence, LNAI 
1778. Springer, 2000. 


[(Wid60] Widrow, B. - Hoff, M. E. "Adaptive Switching Circuits" IRE WESCON Convention Record, pp. 96- 
104. 1960. 


[Wid$5] Widrow, B. - Stearns, S. D. "Adaptive Signal Processing", Prentice-Hall, Englewood Cliffs, N. J. 1985. 


[Wid90b] Widrow, B. — Gluck, M. A. "Adaptive Neural Networks", 1990. Annual International Course on 
Neural Networks, London. 1990. 


[W1189] Williams, R. J. - Zipser, D. "A Learning Algorithm for Continually Running Fully Recurrent Neural 
Networks", Neural Computation, Vol. 1. pp. 270-280. 1989. 


[Won93] Wong, Yiu-fai "CMAC Learning 15 Governed by a Single Parameter", Proc. of the IEEE International 
Conference on Neural Networks, IJCNN 19953. pp. 1439-1443. 1993. 


[Wuo04] Wu, X. - Srihari, R. "Incorporating Prior Knowledge with Weighted Margin Support Vector Machines", 
Proc. of the Tenth International Conference on Knowledge Discovery and Data Mining, KDD 04, Seattle, 
Washington, USA, pp. 326—333. 2004. 


[Zar00] Zarate, L. E. "A Model for the Simulation of a Cold Rolling Mill, Using Neural Networks and 
Sensitivity Factors,", VI. Brazilian Symposium on Neural Networks (SBRN 00), p. 185-190. 2000. 


[/ee97] Zeevi, A. - Meir, R. - Adler, R."Time sertes prediction using mixtures of experts", Advances in Neural 
Information Processing Systems 9, pp. 309-315, MIT Press, 1997. 


[/7ha92] Zhang, O. - Benveniste, A. , Wavelet Networks", IEEE Trans. on Neural Networks, Vol. 3. pp. 889- 
898, 1992. 


[7ha97] Zhang, O. , Using Wavelet Networks in Nonparametric Estimation", IEEE Trans. on Neural Networks, 
Vol. 8. pp. 227-236, 1997. 


[Zha05] Zhang, H. — Wu, Y. — Peng, O. " Image Restoration Using Hopfield Neural Network Based on Total 
Varilational Model ", Advances in Neural Networks — ISNN 2005, Lecture Notes in Computer Science., 
Springer Verlag, Berlin, pp. 735-740, 2005. 


[7ho097] Zhong, L. - Zhongming Z. - Chongguang, Z. "The Unfavorable Effects of Hash Coding on CMAC 
Convergence and Compensatory Measure," IEEE International Conference on Intelligent Processing Systems, 
Beijing, China, pp. 419-422, 1997. 


412 
XMLmind XSL-FO Converter 


Irodalom 


[X1004] Xiong, H. - Swamy, M. N. S. - Ahmad, M. O. "Learning with the Optimized Data-Dependent Kernel" 
Proc. of the 2004 Computer Society Conference on Computer Vision and Pattern Recognition Workshop 
(CVPRW 04), pp. 95-98. 2004. 


[X1005] Xiong, H. - Swamy, M. N. S. - Ahmad, M. 0." Optimizing the Kernel in the Empirical Feature Space", 
IEEE Trans. on Neural Networks, Vol. 16. No.2 pp. 460-474, 2005. 


[Yan00] Yang, S. X. - Meng, M. O.-H.: An efficient neural network approach to dynamic robot motion 
planning. Neural Networks, Vol.13. No. 2. pp. 143-148. 2000. 


[Yu95] Yu, X. H. - Chen, G. A. - Cheng, S. X. "Dynamic Learning Rate Optimization of the Backpropagation 
Algorithm", IEEE Trans. on Neural Networks, Vol. 6. No. 3. pp. 669-677. 1995. 


[Yu97] Yu, X. H. - Chen, G. A. "Efficient Backpropagation Learning Using Optimal Learning Rate and 
Momentum" , Neural Networks, Vol. 10. No. 3. pp. 517-527. 1997. 


[Yu04] Yu, T. - Jan, T. - Debenham, J. - Simoff, S. "Incorporating Prior Domain Knowledge in Machine 
Learning: A Review", Proc. of the IEEE Intntl. Conference on Advances in Intelligent Systems Theory and 
Applications, Luxembourg, 2004. 


413 
XMLmind XSL-FO Converter 


